GPT-5.5 完整重訓代理人模型，五項基準全面領先

AI 導讀 technology AI 重要性 5/5

Terminal-Bench 2.0 拿下 82.7%，超越 Claude Opus 4.7（69.4%）逾 13 個百分點，BrowseComp Pro 更達 90.1%
定價翻倍至 $5/$30 per M token，OpenAI 稱 token 效率提升約 30% 可部分抵銷漲幅，實際成本需按工作流重新計算
自 GPT-4.5 以來首次完整重訓底座模型，長程推理鏈穩定性與工具呼叫精確度針對代理人場景全面重設計

當 OpenAI 將 GPT-5.5 定位為「代理人模型」時，這個命名本身就是一份宣言。這不是 GPT-5.4 的小幅迭代——OpenAI 自 GPT-4.5 以來首次從頭完整重訓底座模型，針對多步驟自主任務設計全新架構，並在 Terminal-Bench 2.0 拿下 82.7%，遠超 Claude Opus 4.7 的 69.4% 與 Gemini 3.1 Pro 的 68.5%。代理人 AI 的旗艦位子，OpenAI 要一舉奪回。

五項基準全面刷新：82.7% 到 90.1% 的完整領先幅度

GPT-5.5 同時在五個核心評測項目超越主要競品，覆蓋代理人能力的完整光譜：

Terminal-Bench 2.0（終端機自主任務）：82.7%，Claude Opus 4.7 僅 69.4%，差距 13.3 個百分點
BrowseComp Pro（網路多步研究）：90.1%，是五項中得分最高的基準
GDPval（通用決策與規劃）：84.9%
OSWorld-Verified（桌面 GUI 操作代理）：78.7%
SWE-Bench Pro（真實 GitHub issue 修復）：58.6%

這五個基準沒有一項是刻意挑選的主場優勢——從終端機操作、GUI 控制、網路研究到軟體工程，全面領先才是 GPT-5.5 最重要的競爭訊號。

GPT-5.5 vs 主要競品：五大代理人基準比較

基準測試	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	69.4%	68.5%
BrowseComp Pro	90.1%	—	—
GDPval	84.9%	—	—
OSWorld-Verified	78.7%	—	—
SWE-Bench Pro	58.6%	—	—

「完整重訓」的三個底層改變

OpenAI 明確指出，GPT-5.5 並非在舊架構上微調，而是重新訓練的全新基礎模型。三個核心設計變化決定了它的代理人特性：

長程推理鏈穩定性：在超過 50 步工具呼叫序列中，錯誤累積率顯著低於前代，能維持一致的決策脈絡，不會在任務中途「忘記目標」。

工具使用精確度重設計：API 函式呼叫、程式碼執行環境交互、跨工具狀態傳遞，全部針對代理人工作流重新最佳化，而非沿用對話場景的舊設計路徑。

Token 效率提升約 30%：OpenAI 宣稱在相同任務品質下，完成一個 Codex 工作流所需 token 數比 GPT-5.4 減少約三成，這一點直接影響定價翻倍後的實際成本計算。

定價翻倍：$5/$30 背後的商業邏輯

GPT-5.5 標準定價為輸入 $5/百萬 token、輸出 $30/百萬 token，相較 GPT-5.4 直接翻倍；Pro 方案更跳升至 $30/$180。

OpenAI 的論點是：若 token 效率提升 30%，帳面翻倍的定價實際漲幅接近 40%，而非 100%。但這個假設在真實代理人工作流是否成立，高度取決於任務複雜度與工具呼叫密度。對每週約 400 萬活躍 Codex 開發者而言，這是需要重新評估的成本壓力，而非自動升級的理由。

GPT-5.5 定價對照（per 百萬 token）

方案	輸入	輸出
GPT-5.5 標準	$5	$30
GPT-5.5 Pro	$30	$180
GPT-5.4 標準（參考）	$2.5	$15

誰該現在升級？適用場景的精確評估

GPT-5.5 已向 ChatGPT Plus／Pro／Business／Enterprise 推出，Codex API 同步開放。優先升級的理由是代理人任務密度高：

多步網路研究自動化（BrowseComp Pro 90.1% 是明確優勢）
桌面 GUI 操作代理（OSWorld 78.7%）
長鏈軟體工程任務（SWE-Bench Pro 有顯著改善空間）

不建議立即切換的場景：對話式客服、單一文件摘要等低代理需求任務。在這類場景中，GPT-5.4 或 GPT-4o 的成本效益比仍然合理，強制升級只會增加費用而得不到對應的品質提升。

代理人 AI 軍備競賽的格局重組

GPT-5.5 讓代理人 AI 市場格局再次洗牌。Anthropic 的 Claude Opus 4.7 在 Terminal-Bench 落後 13 個百分點，Google 的 Gemini 3.1 Pro 落後 14 個百分點。但這場競賽的終點從來不是單一基準——真實工作流的可靠性、工具生態系的整合深度、開發者體驗，才是決定企業採用率的最終因素。接下來的戰場，將從跑分轉移到「在真實生產環境中，每一美元能完成多少有效工作」。

一句話帶走：GPT-5.5 是 OpenAI 對代理人時代的正式宣戰——完整重訓、五項基準全面領先，但定價翻倍意味著每個 Codex 工作流都需要重新計算成本效益，而不是自動升級。

Abstract

The model targets the full stack of computer work — coding, research, data analysis, and software operation — without needing a human to supervise every step The post OpenAI Releases GPT-5.5, a Fully Retrained Agentic Model That Scores 82.7% on Terminal-Bench 2.0 and 84.9% on GDPval appeared first on MarkTechPost.

OpenAI Releases GPT-5.5, a Fully Retrained Agentic Model That Scores 82.7% on Terminal-Bench 2.0 and 84.9% on GDPval

五項基準全面刷新：82.7% 到 90.1% 的完整領先幅度

「完整重訓」的三個底層改變

定價翻倍：$5/$30 背後的商業邏輯

誰該現在升級？適用場景的精確評估

代理人 AI 軍備競賽的格局重組

Abstract

🔗 相關推薦

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 **84.3%** 排行榜最高分，並在 Google Chrome 挖出 **10 個** zero-day 含 2 個 Critical CVE。

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

FHIR 格式換一下，Mistral-7B 藥物調和 F1 差距達 19 點：4,000 次推理的系統性格式比較

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 84.3% 排行榜最高分，並在 Google Chrome 挖出 10 個 zero-day 含 2 個 Critical CVE。