OpenAI Releases GPT-5.5, a Fully Retrained Agentic Model That Scores 82.7% on Terminal-Bench 2.0 and 84.9% on GDPval

Michal Sutter

View Original ↗
AI 導讀 technology AI 重要性 5/5

GPT-5.5 完整重訓代理人模型,五項基準全面領先

  • Terminal-Bench 2.0 拿下 82.7%,超越 Claude Opus 4.7(69.4%)逾 13 個百分點,BrowseComp Pro 更達 90.1%
  • 定價翻倍至 $5/$30 per M token,OpenAI 稱 token 效率提升約 30% 可部分抵銷漲幅,實際成本需按工作流重新計算
  • 自 GPT-4.5 以來首次完整重訓底座模型,長程推理鏈穩定性與工具呼叫精確度針對代理人場景全面重設計

當 OpenAI 將 GPT-5.5 定位為「代理人模型」時,這個命名本身就是一份宣言。這不是 GPT-5.4 的小幅迭代——OpenAI 自 GPT-4.5 以來首次從頭完整重訓底座模型,針對多步驟自主任務設計全新架構,並在 Terminal-Bench 2.0 拿下 82.7%,遠超 Claude Opus 4.7 的 69.4% 與 Gemini 3.1 Pro 的 68.5%。代理人 AI 的旗艦位子,OpenAI 要一舉奪回。

五項基準全面刷新:82.7% 到 90.1% 的完整領先幅度

GPT-5.5 同時在五個核心評測項目超越主要競品,覆蓋代理人能力的完整光譜:

  • Terminal-Bench 2.0(終端機自主任務):82.7%,Claude Opus 4.7 僅 69.4%,差距 13.3 個百分點
  • BrowseComp Pro(網路多步研究):90.1%,是五項中得分最高的基準
  • GDPval(通用決策與規劃):84.9%
  • OSWorld-Verified(桌面 GUI 操作代理):78.7%
  • SWE-Bench Pro(真實 GitHub issue 修復):58.6%

這五個基準沒有一項是刻意挑選的主場優勢——從終端機操作、GUI 控制、網路研究到軟體工程,全面領先才是 GPT-5.5 最重要的競爭訊號。

GPT-5.5 vs 主要競品:五大代理人基準比較
基準測試GPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%69.4%68.5%
BrowseComp Pro90.1%
GDPval84.9%
OSWorld-Verified78.7%
SWE-Bench Pro58.6%

「完整重訓」的三個底層改變

OpenAI 明確指出,GPT-5.5 並非在舊架構上微調,而是重新訓練的全新基礎模型。三個核心設計變化決定了它的代理人特性:

長程推理鏈穩定性:在超過 50 步工具呼叫序列中,錯誤累積率顯著低於前代,能維持一致的決策脈絡,不會在任務中途「忘記目標」。

工具使用精確度重設計:API 函式呼叫、程式碼執行環境交互、跨工具狀態傳遞,全部針對代理人工作流重新最佳化,而非沿用對話場景的舊設計路徑。

Token 效率提升約 30%:OpenAI 宣稱在相同任務品質下,完成一個 Codex 工作流所需 token 數比 GPT-5.4 減少約三成,這一點直接影響定價翻倍後的實際成本計算。

定價翻倍:$5/$30 背後的商業邏輯

GPT-5.5 標準定價為輸入 $5/百萬 token、輸出 $30/百萬 token,相較 GPT-5.4 直接翻倍;Pro 方案更跳升至 $30/$180。

OpenAI 的論點是:若 token 效率提升 30%,帳面翻倍的定價實際漲幅接近 40%,而非 100%。但這個假設在真實代理人工作流是否成立,高度取決於任務複雜度與工具呼叫密度。對每週約 400 萬活躍 Codex 開發者而言,這是需要重新評估的成本壓力,而非自動升級的理由。

GPT-5.5 定價對照(per 百萬 token)
方案輸入輸出
GPT-5.5 標準$5$30
GPT-5.5 Pro$30$180
GPT-5.4 標準(參考)$2.5$15

誰該現在升級?適用場景的精確評估

GPT-5.5 已向 ChatGPT Plus/Pro/Business/Enterprise 推出,Codex API 同步開放。優先升級的理由是代理人任務密度高:

  • 多步網路研究自動化(BrowseComp Pro 90.1% 是明確優勢)
  • 桌面 GUI 操作代理(OSWorld 78.7%)
  • 長鏈軟體工程任務(SWE-Bench Pro 有顯著改善空間)

不建議立即切換的場景:對話式客服、單一文件摘要等低代理需求任務。在這類場景中,GPT-5.4 或 GPT-4o 的成本效益比仍然合理,強制升級只會增加費用而得不到對應的品質提升。

代理人 AI 軍備競賽的格局重組

GPT-5.5 讓代理人 AI 市場格局再次洗牌。Anthropic 的 Claude Opus 4.7 在 Terminal-Bench 落後 13 個百分點,Google 的 Gemini 3.1 Pro 落後 14 個百分點。但這場競賽的終點從來不是單一基準——真實工作流的可靠性、工具生態系的整合深度、開發者體驗,才是決定企業採用率的最終因素。接下來的戰場,將從跑分轉移到「在真實生產環境中,每一美元能完成多少有效工作」。

一句話帶走:GPT-5.5 是 OpenAI 對代理人時代的正式宣戰——完整重訓、五項基準全面領先,但定價翻倍意味著每個 Codex 工作流都需要重新計算成本效益,而不是自動升級。

Abstract

The model targets the full stack of computer work — coding, research, data analysis, and software operation — without needing a human to supervise every step The post OpenAI Releases GPT-5.5, a Fully Retrained Agentic Model That Scores 82.7% on Terminal-Bench 2.0 and 84.9% on GDPval appeared first on MarkTechPost.