Xiaomi Releases MiMo-V2.5-Pro and MiMo-V2.5: Matching Frontier Model Benchmarks at Significantly Lower Token Cost
小米 MiMo-V2.5-Pro 以 70K tokens 打出 Claude Opus 4.6 等級代理分數,成本省下 40-60%
- SWE-bench Pro 57.2、τ3-Bench 72.9 對標 Claude Opus 4.6,每條軌跡 70K tokens 比頂尖模型省 40-60%
- 4.3 小時 672 次工具呼叫完成 233/233 Rust 編譯器,11.5 小時 1,868 次呼叫建出完整視訊編輯器
- MiMo-V2.5 以一半定價提供 100 萬 token 上下文,Video-MME 87.7 幾乎追平 Gemini 3 Pro 88.4
小米 MiMo-V2.5-Pro 用每條軌跡約 70K tokens 達到與 Claude Opus 4.6 相近的代理基準分數,token 用量卻少了 40-60%。同步亮相的 MiMo-V2.5 以一半定價原生支援視覺與音訊,Video-MME 評分 87.7 幾乎追平 Gemini 3 Pro(88.4)——兩款模型均已透過 API 即時開放,並可直接接入 Claude Code、OpenCode 等主流代理框架。
小米開源代理模型:SWE-bench 57.2 對標 Claude Opus 4.6
代理模型(Agentic Model)與一般 LLM(大型語言模型)的本質差距,在於能否在沒有人工介入的情況下完成多步驟目標:呼叫工具、執行程式碼、讀寫檔案、跨多輪保持任務連貫性。傳統 LLM 測試只評「回答一個問題」,代理基準測試評的是「自主完成一個真實任務」——好比一個能解釋如何寫詞法分析器的模型,和一個真的能實作完整編譯器、跑測試、修回歸的模型,是兩件完全不同的事。
MiMo-V2.5-Pro 是小米目前旗艦等級的代理模型,在三個核心基準上的成績為:SWE-bench Pro 57.2(軟體工程自動化任務)、Claw-Eval 63.8(長程代理任務綜合評分)、τ3-Bench 72.9(多步驟推理與工具使用)。原廠表示,這三項分數與 Claude Opus 4.6 和 GPT-5.4 在大多數評估中並列。
V2.5-Pro 的一項設計特性被小米稱為「harness awareness(框架感知)」:模型不只執行指令,而是主動管理自己的記憶、主動塑造上下文填充方式,始終指向最終目標。這讓它能在超過千次工具呼叫的超長任務中保持連貫性,並可靠遵守嵌入上下文深處的細節指令。
| 基準測試 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| SWE-bench Pro | 57.2 | — |
| Claw-Eval 通用 | 63.8 | 62.3 |
| τ3-Bench | 72.9 | — |
| Video-MME | — | 87.7 |
| Claw-Eval 多模態 | — | 23.8 |
| CharXiv RQ | — | 81.0 |
| MMMU-Pro | — | 77.9 |
資料來源:Xiaomi MiMo 官方發布數據
672 次工具呼叫 4.3 小時:Rust 編譯器從零完成 233/233
小米公開了三個真實任務演示,具體說明 V2.5-Pro「長程代理能力」的實踐模樣。
第一個任務是北京大學《編譯原理》課程的 SysY 編譯器,語言為 Rust,涵蓋詞法分析器、剖析器、AST、Koopa IR 代碼生成、RISC-V 組語後端與效能優化。這個課程專案通常需要 PKU 資工系學生花幾週完成,MiMo-V2.5-Pro 以 672 次工具呼叫在 4.3 小時內完成,通過課程所有隱藏測試,得分 233/233 滿分。
執行過程採分層建構策略:先搭完整管道,再依序完善 Koopa IR(110/110)→ RISC-V 後端(103/103)→ 效能優化(20/20)。第一次編譯就通過 137/233 測試(冷啟動通過率 59%),說明架構在寫第一行程式碼前就已設計正確。中途重構引發回歸問題時,模型自行診斷、修復並繼續推進——這是有結構的自我修正工程行為,不是暴力試錯。
第二個任務是桌面視訊編輯器,功能完整:多軌時間軸、剪輯修剪、交叉淡入淡出、音訊混合、匯出管道,最終產出 8,192 行程式碼,耗費 1,868 次工具呼叫、11.5 小時自主工作。
第三個任務最具技術深度:類比 EDA 電路設計,要求在 TSMC 180nm CMOS 製程下設計完整的 FVF-LDO(Flipped-Voltage-Follower 低壓差線性穩壓器),需同時達成相位裕度、線性調整率、負載調整率、靜態電流、PSRR 與暫態響應六項電氣指標。接入 ngspice 模擬迴路後,約一小時閉環迭代,全部目標達標,四項關鍵指標比初始設計提升一個數量級。
MiMo-V2.5 全模態效能數字:Video-MME 87.7 追平 Gemini 3 Pro
MiMo-V2.5 是定位在 V2.5-Pro 之下的全模態版本,以一半定價(1x token 定價)原生支援視覺與音訊理解。
架構上的關鍵差異:MiMo-V2.5 並非在文字模型上拼接視覺模組,而是從訓練起就將感知與行動統一——模型從一開始被訓練成能看、能聽、並依感知結果採取行動的單一系統。小米稱這解決了早期多模態模型在「感知-行動邊界」上常見的能力缺口。
具體效能數字:視訊理解基準 Video-MME 得 87.7 分(Gemini 3 Pro 為 88.4,差距不到一個百分點,遠超 Gemini 3 Flash);多模態代理評估 Claw-Eval Multimodal 得 23.8(與 Claude Sonnet 4.6 持平,落後 Claude Opus 4.6 一分);圖表理解基準 CharXiv RQ 得 81.0,複合多模態基準 MMMU-Pro 得 77.9,通用子集 Claw-Eval 得 62.3,位於效能-效率 Pareto 前緣。
MiMo-V2.5 原生支援 100 萬 token(1M)上下文視窗,Token Plans 定價已取消長上下文倍率收費,1M token 視窗包含在標準定價內。在 MiMo Coding Bench 日常編程任務評估中,MiMo-V2.5 以一半定價達到接近 V2.5-Pro 的表現。
MiMo-V2.5 以 87.7 幾乎追平 Gemini 3 Pro(88.4)
每條軌跡 70K tokens:比頂尖模型省下 40-60% 的成本邏輯
代理管道(agentic pipeline)的實際成本,不只看單次查詢的 token 數,而是整個任務軌跡(trajectory)的累積消耗。V2.5-Pro 在 Claw-Eval 評估中,每條軌跡消耗約 70K tokens,達到 64% Pass^3(三次通過率)的成績。在同等能力等級上,Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 的 token 消耗估計是其 1.67 至 2.5 倍。
對跑生產代理管道的工程團隊而言,40-60% 的 token 節省不是邊際改善,而是直接影響帳單的成本結構差異。小米明確定位這是「工程上的材料成本差異,不是行銷數字」。定價架構清晰:MiMo-V2.5 定價 1x,MiMo-V2.5-Pro 定價 2x(1 token = 2 積分),兩者均已透過 API 開放可立即接入。
Drop-in 後端新選項:相容 Claude Code 與 Kilo 的部署路徑
小米明確將兩款模型定位為現有代理框架的「可直接替換後端(drop-in backend)」,支援的框架包括 Claude Code、OpenCode 與 Kilo。開發者不需重新設計上層架構,替換底層模型即可,框架層邏輯照常運作,對想要可稽核(auditable)、可自行託管(self-hostable)代理 AI 的工程團隊提供了可落地的路徑。
小米另推出 MiMo Coding Bench(自有評估套件),覆蓋倉庫理解、專案建構、程式碼審查、結構化產物生成、規劃與軟體工程任務等類別,V2.5-Pro 在這個基準上領先同業。就整體格局而言,SWE-bench Pro 57.2 的成績、三個真實任務演示的工程深度、加上 40-60% 的 token 效率優勢,讓 MiMo-V2.5-Pro 成為 Claude Opus 4.6 等級任務的可行替代後端——前沿等級開源代理 AI 的成本競賽,已正式開始。
小米用 70K tokens / 軌跡打出 Claude Opus 4.6 等級的代理分數:問題不再是「開源能不能做到」,而是「你的管道帳單準備好被砍一半了嗎」?