Anthropic Releases Claude Opus 4.7: A Major Upgrade for Agentic Coding, High-Resolution Vision, and Long-Horizon Autonomous Tasks
Anthropic 推出 Opus 4.7,不僅將視覺解析度提升至 3.75 百萬像素,更在 CursorBench 測試中突破 70% 通過率。
- Opus 4.7 在 CursorBench 測試達 70%,並具備在回報前自主驗證輸出的能力,大幅降低工具錯誤率。
- 支援 3.75 百萬像素輸入,視覺解析度達前代三倍,在複雜圖形介面與工程圖提取表現優異。
- 新增 xhigh 運算級別與任務預算機制,並推出 /ultrareview 審查指令,精準控管運算成本與代碼品質。
Anthropic 最新推出的 Claude Opus 4.7 在 CursorBench 程式碼基準測試中取得 70% 的成績,並將視覺解析度推升至 3.75 百萬像素。這次發布針對代理型軟體工程、多模態推論與長時間自主任務執行等開發者需求,進行了精準且大幅度的升級。
Opus 4.7 通過 70% CursorBench 測試
Opus 4.7 作為 Anthropic 模型家族中的最高階版本(僅次於限制存取的 Claude Mythos),在進階軟體工程任務上展現了顯著的進步。早期測試數據顯示,Opus 4.7 在一項包含 93 個任務的程式碼基準測試中,解決率比前代 Opus 4.6 提升了 13%。這不僅包含四個前代 Opus 與 Sonnet 模型都無法處理的難題,在廣受開發者使用的 CursorBench 評估中,Opus 4.7 更成功通關 70% 的測試,遠高於 Opus 4.6 的 58%。
內部邏輯的轉變是這次更新的另一大焦點。過去的模型往往在生成結果後缺乏內部的合理性檢查,而 Opus 4.7 具備了自我驗證輸出的能力,能夠在回報結果前自主完成驗證迴圈。這項機制對於 CI/CD(軟體開發中自動化建置與測試的流程)以及多步驟的代理型工作流具有重大意義。開發團隊現在能放心地將複雜且需要長時間執行的程式碼任務交給模型處理。在一項複雜多步工作流測試中,Opus 4.7 不僅將工具錯誤率降低至原來的三分之一,更在消耗較少 Token(大型語言模型處理文字的基本單位)的情況下達成了 14% 的效能提升,並能在工具發生錯誤時持續執行。
視覺解析度達前代三倍,支援 3.75 百萬像素
多模態推論能力的擴充,是 Opus 4.7 在技術層面上最為具體的升級。現在,該模型可以接收長邊高達 2,576 像素(約 3.75 百萬像素)的圖像,總像素量超過以往 Claude 模型的三倍。面對複雜真實場景,例如讓 Computer-use agents(能自主操作電腦介面的 AI)讀取密集的圖形使用者介面截圖,或從複雜工程圖中提取數據時,模型失敗的原因往往是無法解析細微的視覺特徵,而非缺乏推論能力。
提升視覺解析度在實際生產環境中已經產生了戲劇性的成效。一位開發電腦代理工作流的測試者指出,Opus 4.7 在其視覺敏銳度基準測試中獲得了 98.5% 的高分,對比 Opus 4.6 僅有 54.5%,有效解決了開發者在使用 Opus 時最大的障礙。這項改變屬於模型底層架構的升級,而非單純的 API 參數調整。儘管高解析度圖像的處理會消耗更多的運算資源,不需要此等精細度的使用者,依然可以選擇在傳送給模型前先行降採樣(Downsample),以兼顧運算成本。
導入 xhigh 運算級別與 API 任務預算機制
面對運算資源管理,Opus 4.7 帶來了兩個全新的成本控制機制。首先,Anthropic 在既有的 high 與 max 運算力之間,新增了一個 xhigh(Extra High)運算級別。這項設計讓使用者在面對複雜難題時,能夠更精細地微調推論能力與系統延遲之間的權衡關係。在 Claude Code 開發工具中,Anthropic 團隊已將所有方案的預設運算級別提升至 xhigh,並建議在測試代理型應用時從此級別開始嘗試。
同時登場的還有一項測試中的功能。Claude Platform API 正式推出了任務預算(Task Budgets)的公開測試版,提供開發者一種引導模型 Token 花費的方法。透過這套機制,模型能在長時間執行的任務中自主排定工作優先順序。當開發團隊在生產環境中運行平行化的代理管線時,單次呼叫的成本與延遲都需要受到嚴格管控,新機制的結合為生產環境提供了極具實用價值的控制權。
新增 /ultrareview 指令與跨會話記憶系統
配合新模型的發布,Claude Code 也迎來了兩項值得關注的新功能。全新的 /ultrareview 指令能啟動一次深度的程式碼審查會話,模型會像一位資深工程師一樣,仔細閱讀程式碼變更並標記出潛在的錯誤與架構設計問題。Anthropic 提供 Pro 與 Max 用戶三次免費體驗額度,讓開發者在合併複雜的拉取請求或部署至生產環境前進行最後把關。自動模式(Auto mode)現在也向 Max 用戶開放,允許 Claude 代表使用者做出決策,讓代理程式在較少干預的情況下執行較長的任務,特別適合在夜間跨越龐大程式碼庫執行多步驟工作。
確保長時間任務穩定的基礎,在於 Opus 4.7 優化了基於檔案系統的記憶能力(File System-Based Memory)。模型現在能跨越漫長的多會話工作記住重要筆記,從而減少啟動新任務時所需的前置上下文。在第三方評估中,該模型在涵蓋金融、法律等領域的 GDPval-AA 經濟價值知識工作測試中,達到了目前最先進(SOTA)的表現。
Opus 4.7 透過 3 倍視覺解析度與自主驗證能力,為開發團隊提供了執行高容錯、多步驟代理任務的強大基礎設施。