小米 MiMo-V2.5-Pro 以 70K tokens 打出 Claude Opus 4.6 等級代理分數，成本省下

AI 導讀 technology AI 重要性 4/5

小米 MiMo-V2.5-Pro 以 70K tokens 打出 Claude Opus 4.6 等級代理分數，成本省下 40-60%

SWE-bench Pro 57.2、τ3-Bench 72.9 對標 Claude Opus 4.6，每條軌跡 70K tokens 比頂尖模型省 40-60%
4.3 小時 672 次工具呼叫完成 233/233 Rust 編譯器，11.5 小時 1,868 次呼叫建出完整視訊編輯器
MiMo-V2.5 以一半定價提供 100 萬 token 上下文，Video-MME 87.7 幾乎追平 Gemini 3 Pro 88.4

小米 MiMo-V2.5-Pro 用每條軌跡約 70K tokens 達到與 Claude Opus 4.6 相近的代理基準分數，token 用量卻少了 40-60%。同步亮相的 MiMo-V2.5 以一半定價原生支援視覺與音訊，Video-MME 評分 87.7 幾乎追平 Gemini 3 Pro（88.4）——兩款模型均已透過 API 即時開放，並可直接接入 Claude Code、OpenCode 等主流代理框架。

小米開源代理模型：SWE-bench 57.2 對標 Claude Opus 4.6

代理模型（Agentic Model）與一般 LLM（大型語言模型）的本質差距，在於能否在沒有人工介入的情況下完成多步驟目標：呼叫工具、執行程式碼、讀寫檔案、跨多輪保持任務連貫性。傳統 LLM 測試只評「回答一個問題」，代理基準測試評的是「自主完成一個真實任務」——好比一個能解釋如何寫詞法分析器的模型，和一個真的能實作完整編譯器、跑測試、修回歸的模型，是兩件完全不同的事。

MiMo-V2.5-Pro 是小米目前旗艦等級的代理模型，在三個核心基準上的成績為：SWE-bench Pro 57.2（軟體工程自動化任務）、Claw-Eval 63.8（長程代理任務綜合評分）、τ3-Bench 72.9（多步驟推理與工具使用）。原廠表示，這三項分數與 Claude Opus 4.6 和 GPT-5.4 在大多數評估中並列。

V2.5-Pro 的一項設計特性被小米稱為「harness awareness（框架感知）」：模型不只執行指令，而是主動管理自己的記憶、主動塑造上下文填充方式，始終指向最終目標。這讓它能在超過千次工具呼叫的超長任務中保持連貫性，並可靠遵守嵌入上下文深處的細節指令。

MiMo 兩款模型主要基準分數

基準測試	MiMo-V2.5-Pro	MiMo-V2.5
SWE-bench Pro	57.2	—
Claw-Eval 通用	63.8	62.3
τ3-Bench	72.9	—
Video-MME	—	87.7
Claw-Eval 多模態	—	23.8
CharXiv RQ	—	81.0
MMMU-Pro	—	77.9

資料來源：Xiaomi MiMo 官方發布數據

672 次工具呼叫 4.3 小時：Rust 編譯器從零完成 233/233

小米公開了三個真實任務演示，具體說明 V2.5-Pro「長程代理能力」的實踐模樣。

第一個任務是北京大學《編譯原理》課程的 SysY 編譯器，語言為 Rust，涵蓋詞法分析器、剖析器、AST、Koopa IR 代碼生成、RISC-V 組語後端與效能優化。這個課程專案通常需要 PKU 資工系學生花幾週完成，MiMo-V2.5-Pro 以 672 次工具呼叫在 4.3 小時內完成，通過課程所有隱藏測試，得分 233/233 滿分。

執行過程採分層建構策略：先搭完整管道，再依序完善 Koopa IR（110/110）→ RISC-V 後端（103/103）→ 效能優化（20/20）。第一次編譯就通過 137/233 測試（冷啟動通過率 59%），說明架構在寫第一行程式碼前就已設計正確。中途重構引發回歸問題時，模型自行診斷、修復並繼續推進——這是有結構的自我修正工程行為，不是暴力試錯。

第二個任務是桌面視訊編輯器，功能完整：多軌時間軸、剪輯修剪、交叉淡入淡出、音訊混合、匯出管道，最終產出 8,192 行程式碼，耗費 1,868 次工具呼叫、11.5 小時自主工作。

第三個任務最具技術深度：類比 EDA 電路設計，要求在 TSMC 180nm CMOS 製程下設計完整的 FVF-LDO（Flipped-Voltage-Follower 低壓差線性穩壓器），需同時達成相位裕度、線性調整率、負載調整率、靜態電流、PSRR 與暫態響應六項電氣指標。接入 ngspice 模擬迴路後，約一小時閉環迭代，全部目標達標，四項關鍵指標比初始設計提升一個數量級。

MiMo-V2.5 全模態效能數字：Video-MME 87.7 追平 Gemini 3 Pro

MiMo-V2.5 是定位在 V2.5-Pro 之下的全模態版本，以一半定價（1x token 定價）原生支援視覺與音訊理解。

架構上的關鍵差異：MiMo-V2.5 並非在文字模型上拼接視覺模組，而是從訓練起就將感知與行動統一——模型從一開始被訓練成能看、能聽、並依感知結果採取行動的單一系統。小米稱這解決了早期多模態模型在「感知-行動邊界」上常見的能力缺口。

具體效能數字：視訊理解基準 Video-MME 得 87.7 分（Gemini 3 Pro 為 88.4，差距不到一個百分點，遠超 Gemini 3 Flash）；多模態代理評估 Claw-Eval Multimodal 得 23.8（與 Claude Sonnet 4.6 持平，落後 Claude Opus 4.6 一分）；圖表理解基準 CharXiv RQ 得 81.0，複合多模態基準 MMMU-Pro 得 77.9，通用子集 Claw-Eval 得 62.3，位於效能-效率 Pareto 前緣。

MiMo-V2.5 原生支援 100 萬 token（1M）上下文視窗，Token Plans 定價已取消長上下文倍率收費，1M token 視窗包含在標準定價內。在 MiMo Coding Bench 日常編程任務評估中，MiMo-V2.5 以一半定價達到接近 V2.5-Pro 的表現。

Video-MME 視訊理解基準對比

MiMo-V2.5 以 87.7 幾乎追平 Gemini 3 Pro（88.4）

每條軌跡 70K tokens：比頂尖模型省下 40-60% 的成本邏輯

代理管道（agentic pipeline）的實際成本，不只看單次查詢的 token 數，而是整個任務軌跡（trajectory）的累積消耗。V2.5-Pro 在 Claw-Eval 評估中，每條軌跡消耗約 70K tokens，達到 64% Pass^3（三次通過率）的成績。在同等能力等級上，Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 的 token 消耗估計是其 1.67 至 2.5 倍。

對跑生產代理管道的工程團隊而言，40-60% 的 token 節省不是邊際改善，而是直接影響帳單的成本結構差異。小米明確定位這是「工程上的材料成本差異，不是行銷數字」。定價架構清晰：MiMo-V2.5 定價 1x，MiMo-V2.5-Pro 定價 2x（1 token = 2 積分），兩者均已透過 API 開放可立即接入。

Drop-in 後端新選項：相容 Claude Code 與 Kilo 的部署路徑

小米明確將兩款模型定位為現有代理框架的「可直接替換後端（drop-in backend）」，支援的框架包括 Claude Code、OpenCode 與 Kilo。開發者不需重新設計上層架構，替換底層模型即可，框架層邏輯照常運作，對想要可稽核（auditable）、可自行託管（self-hostable）代理 AI 的工程團隊提供了可落地的路徑。

小米另推出 MiMo Coding Bench（自有評估套件），覆蓋倉庫理解、專案建構、程式碼審查、結構化產物生成、規劃與軟體工程任務等類別，V2.5-Pro 在這個基準上領先同業。就整體格局而言，SWE-bench Pro 57.2 的成績、三個真實任務演示的工程深度、加上 40-60% 的 token 效率優勢，讓 MiMo-V2.5-Pro 成為 Claude Opus 4.6 等級任務的可行替代後端——前沿等級開源代理 AI 的成本競賽，已正式開始。

小米用 70K tokens / 軌跡打出 Claude Opus 4.6 等級的代理分數：問題不再是「開源能不能做到」，而是「你的管道帳單準備好被砍一半了嗎」？

Abstract

Xiaomi's MiMo team just dropped two new models that push open-source agentic AI closer to frontier territory than ever before. The post Xiaomi Releases MiMo-V2.5-Pro and MiMo-V2.5: Matching Frontier Model Benchmarks at Significantly Lower Token Cost appeared first on MarkTechPost.

Xiaomi Releases MiMo-V2.5-Pro and MiMo-V2.5: Matching Frontier Model Benchmarks at Significantly Lower Token Cost

小米開源代理模型：SWE-bench 57.2 對標 Claude Opus 4.6

672 次工具呼叫 4.3 小時：Rust 編譯器從零完成 233/233

MiMo-V2.5 全模態效能數字：Video-MME 87.7 追平 Gemini 3 Pro

每條軌跡 70K tokens：比頂尖模型省下 40-60% 的成本邏輯

Drop-in 後端新選項：相容 Claude Code 與 Kilo 的部署路徑

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI agent 同時向成功與失敗學習：ReasoningBank 讓 WebArena 成功率提升 8.3 個百分點

SPLIT 框架透過多重數據分割與測量域損失，成功讓 5 通道多光譜 CT 在零真實影像下完成非線性自監督重建。