Claude Opus 4.7 (8 minute read)

View Original ↗
AI 導讀 technology AI 重要性 4/5

Anthropic 推出支援 3.75 百萬畫素視覺輸入的 Claude Opus 4.7,引入 xhigh 運算層級,大幅提升長效程式碼生成與代理工作流的穩定性。

  • 視覺解析度提升至 2,576 像素(約 3.75 百萬畫素),解鎖複雜介面與架構圖等多模態分析。
  • 新增 xhigh 運算層級與任務預算控制 API,讓開發者能精細平衡模型的深度推理與運算延遲。
  • 更新 Tokenizer 並嚴格遵循字面指令,相同的輸入內容可能會轉換成 1.0 至 1.35 倍的代幣數量。

Anthropic 正式推出 Claude Opus 4.7,維持每百萬輸入代幣 5 美元的定價,但在高難度軟體工程與長文本處理上展現突破。這款新模型支援高達 3.75 百萬畫素的高解析度影像輸入,並引入全新的 xhigh 運算層級,讓開發者能將過去需要密切監督的複雜程式碼任務,安心交由 AI 獨立執行。

Claude Opus 4.7 升級長效非同步工作流與視覺

Claude Opus 4.7 的核心升級聚焦於高難度的軟體工程與長效執行能力。開發團隊指出,新模型在處理複雜、長時間運行的非同步工作流(如 CI/CD 與自動化)時,展現出高度的嚴謹性與一致性。它不僅能精確遵循指令,還會在回報前主動設計方法來驗證自身的輸出結果,減少中途停滯的情況。

這款模型在視覺理解上也大幅躍進,能處理長邊達 2,576 像素(約 3.75 百萬畫素)的高解析度影像。這項相當於過去模型三倍畫素的規格提升,解鎖了讀取密集螢幕截圖、從複雜技術圖表提取數據,以及閱讀化學結構圖等多模態應用場景。

值得注意的是,Opus 4.7 對指令的理解變得更加字面化與精準。這意味著過去針對舊模型(可能會寬鬆解釋或跳過部分指令)編寫的提示詞,現在可能會產生意料之外的結果,使用者需要重新微調提示詞與測試環境。此外,它在檔案系統的記憶能力也有所提升,能在跨會話的長期工作中記住重要筆記,減少新任務所需的預先上下文。

實測顯示 Opus 4.7 在程式與代理任務的具體提升

根據早期測試者的回饋,Opus 4.7 在自主程式設計與代理(Agent)工作流程中表現出強大的穩定性。AI 軟體工程師 Devin 的團隊表示,新模型將長期自主性提升至新境界,能連續數小時處理困難問題。Claude Opus 4.7 甚至能自主從零開始建立完整的 Rust 文字轉語音引擎,包含神經模型、SIMD 核心與瀏覽器展示,並將輸出回饋給語音辨識器進行驗證。

在程式碼審查與除錯方面,CodeRabbit 觀察到召回率提升了超過 10%,能抓出最複雜 PR 中難以察覺的錯誤。終端機工具 Warp 指出,新模型解決了 Opus 4.6 無法破解的並行性(concurrency)錯誤。Vercel 團隊更發現,新模型在開始編寫系統程式碼之前,會先進行數學證明,這是過去 Claude 模型未曾出現的行為。

在資料處理與專業領域,資料平台 Hex 認為新模型能正確回報資料缺失,而非提供看似合理的錯誤替代方案。法律 AI 公司 Harvey 測試顯示,新模型在 BigLaw Bench 取得 90.9% 的高分,能正確區分轉讓條款與控制權變更條款。量化分析公司 Quantium 則指出其在推理深度與結構化問題框架上取得顯著進展。

引入 xhigh 運算層級與代幣預算控制機制

為了讓使用者在處理難題時能更精細地控制推理能力與延遲之間的取捨,Opus 4.7 引入了介於 highmax 之間全新的 xhigh(超高)運算層級。在開發者工具 Claude Code 中,所有訂閱方案的預設運算層級已全面調升至 xhigh。官方建議在測試程式設計與代理應用時,從 highxhigh 開始著手。

Anthropic 同時在 Claude API 平台推出了「任務預算(Task budgets)」的公開測試版。這項新功能讓開發者能夠引導 Claude 的代幣花費,使其在長時間運作中能有效排定工作優先順序。此外,Claude Code 新增了 /ultrareview 斜線指令,能自動產生專屬的程式碼審查會話,標記出潛在的錯誤與架構問題,並將自動模式(Auto mode)權限延伸至 Max 用戶。

在遷移至新版本時,開發者需要注意代幣計算方式的改變。Opus 4.7 採用了更新版的 Tokenizer(將文字轉換為模型可處理的數據格式),能改善文本處理效率,但相同的輸入內容可能會轉換成約 1.0 至 1.35 倍的代幣數量。此外,在較高的運算層級下,模型會進行更深度的思考,這也會產生更多的輸出代幣。

實裝 Project Glasswing 防護與資安驗證計畫

延續上週發布的 Project Glasswing(針對 AI 模型網路安全風險與效益的計畫),Anthropic 決定先在能力較次要的模型上測試新的資安防護機制。Opus 4.7 正是第一款實裝此機制的模型,其內部已內建自動偵測與阻擋高風險網路安全請求的防護網。

透過在真實世界部署這些防護機制所收集的數據,將協助團隊推進最終廣泛發布最強模型 Claude Mythos Preview 的目標。同時,針對需要使用 Opus 4.7 進行漏洞研究、滲透測試與紅隊演練等合法網路安全用途的專業人員,官方也同步推出了全新的網路安全驗證計畫(Cyber Verification Program)。

在整體安全性評估上,Opus 4.7 展現出與前代相似的穩定輪廓,在欺騙、阿諛奉承與協助濫用等令人擔憂的行為指標上維持低發生率。雖然在誠實度與抵抗惡意「提示詞注入攻擊」上有所進步,但在針對管制物質提供過度詳細的減害建議傾向上,則呈現微幅弱化的現象。官方對齊評估總結其為「具備高度對齊性與可信度,但行為尚未達到完全理想的狀態」。

Claude Opus 4.7 透過運算層級細分與更精準的指令遵循能力,大幅提升了代理工作流的自主性,開發者需因應新版 Tokenizer 與字面化理解特性重新調校提示詞。

Abstract

Anthropic has released Claude Opus 4.7, offering improved performance on difficult engineering tasks, stronger vision capabilities, and more reliable long-running task execution compared to its predecessor.