Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters (6 minute read)

View Original ↗
AI 導讀 technology infrastructure 重要性 4/5

Blackwell 實測將詞元成本降低 35 倍,證實「每詞元成本」是評估 AI 硬體的唯一關鍵。

  • 傳統算力指標已失效,改以「每百萬詞元成本」評估 AI 硬體才能確保推論服務真實獲利。
  • Blackwell 每小時單價雖高,但憑藉極大化的產出效能,DeepSeek-R1 實測詞元成本大降 35 倍。
  • 極致的軟硬體協同設計結合開源生態系持續優化,能確保硬體採購後的每詞元成本不斷下降。

NVIDIA Blackwell 平台的每小時 GPU 租用成本較前代 Hopper 高出將近 2 倍,但在運行 DeepSeek-R1 模型時,其每百萬詞元生成的實際成本卻大幅降低了 35 倍。當生成式 AI 崛起,傳統資料中心已轉型為製造智慧的「AI 詞元工廠」,企業若仍依賴理論算力來評估基礎設施效益,將面臨嚴重的商業誤判。

資料中心轉型 AI 詞元工廠的評估誤區

檢視過去,傳統資料中心的主要任務僅限於儲存、檢索與處理結構化資料。踏入生成式 AI 與代理式 AI(Agentic AI)時代後,這些設施已經演變為專注於生產 AI Token(詞元,AI處理資料的基本單位)的工廠。由於 AI 推論(Inference)成為核心工作負載,基礎設施的主要產出已具象化為透過詞元封裝的人工智慧。

遭遇這項轉變,企業評估基礎設施與 TCO(總擁有成本,資產生命週期的整體花費)的經濟學視角也必須相應調整。目前仍有許多企業在採購時過度關注晶片的峰值規格,或是執著於每花費一美元能買到多少硬體運算力,也就是所謂的每美元 FLOPS(每秒浮點運算次數,衡量硬體算力)

拆解這幾項評估指標的本質差異是企業獲利的關鍵。「運算成本」代表企業為 AI 基礎設施支付的實體租賃或買斷費用;「每美元 FLOPS」代表每一美元換取的原始運算力,但原始運算力絕對不等於真實世界的詞元產出量。真正具備商業意義的指標是「每詞元成本(Cost per token)」,即企業生產並交付每一個詞元所需的總包成本,業界通常以每百萬詞元成本來表示。前兩者僅是投入指標,企業若為了優化投入而忽略了驅動業務的產出,將會陷入嚴重的營運錯位。

降低百萬詞元成本分母的兩大商業效益

探究 AI 業務的擴展潛力,只有詞元成本才能決定企業能否在具備盈利能力的前提下持續擴張。作為唯一能直接反映硬體效能、軟體最佳化、生態系支援以及真實世界利用率的 TCO 指標,深入理解詞元成本的運作機制至關重要。攤開每百萬詞元成本的計算公式,可以看出其數值等於「每小時單顆 GPU 成本」除以「每小時實際交付的詞元產出量」。

觀察多數企業在評估 AI 基礎設施時,往往緊盯著公式的分子:對於雲端部署而言是支付給雲端供應商的每小時費率,對於地端部署則是攤提自有硬體後的有效每小時成本。然而,真正能大幅壓低詞元成本的關鍵在於公式的分母,也就是如何將實際交付的詞元產出量極大化。

推升分母的數值將帶來兩層具體的商業影響。首先是將詞元成本極小化,當詞元產出量增加並反映在成本公式中,每單位詞元成本便會隨之下降,直接擴大每一次 AI 互動服務的利潤空間。其次是將營收極大化,每秒交付更多的詞元,意味著每百萬瓦(Megawatt)電力能產出更多智慧,讓企業能在相同的基礎設施投資下,為 AI 驅動的產品與服務注入更多動能並創造更高營收。

決定 MoE 模型輸出效率的推論冰山要素

過度聚焦於公式分子,將使企業忽略驅動分母成長的真正動能,這如同面對一座「推論冰山(Inference iceberg)」。分子位於水面之上,肉眼可見且極易比較,包含每小時 GPU 成本與峰值記憶體頻寬;而分母則隱藏在水面之下,囊括了決定真實世界詞元產出量的各種關鍵技術。精準評估 AI 基礎設施的第一步,就是要探究冰山底下的全貌。

剖析深度的成本結構,必須從表層詢問推進至底層架構。表層通常只停留在單顆 GPU 成本、Petaflops 峰值算力與每美元 FLOPS,但深度的成本分析則必須拷問:大規模 MoE(混合專家模型,依任務啟動部分網路)架構的每百萬詞元成本究竟是多少?特別是在資本投入龐大的地端部署中,每百萬瓦電力實際交付的詞元輸出量能否達到極致?

確認基礎設施的完備度,還需要檢視伺服器內部的互連架構能否應付 MoE 模型複雜的「All-to-all」通訊流量。系統是否原生支援 FP4(四位元浮點數格式,可降低記憶體需求)精度?推論執行環境是否支援 Speculative decoding(推測解碼,用小模型加速大模型生成)或多詞元預測(Multi-token prediction)來提升生成速度?

配置伺服層級的最佳化時,系統需支援解耦服務(Disaggregated serving)、KV 感知路由與 KV-cache(鍵值快取,儲存過去運算結果)卸載等進階技術。同時,平台必須能滿足代理式 AI 極低延遲、高吞吐量以及超長輸入序列的獨特需求。上述所有演算法、軟硬體最佳化都必須緊密整合,否則一顆看似便宜卻每秒產出極低詞元的 GPU,最終只會帶來極高的真實推論成本。

DeepSeek-R1 實測:Blackwell 成本降 35 倍

導入真實世界的 AI 模型實測數據,最能凸顯理論算力與實際商業成果之間的顯著差異。以 DeepSeek-R1 模型的運算表現為例,若單看運算成本,NVIDIA Blackwell 平台(GB300 NVL72)的單顆 GPU 每小時成本約為 2.65 美元,是前代 NVIDIA Hopper 架構(HGX H200,1.41 美元)的將近 2 倍

對比單純以每美元 FLOPS 計算的理論數據,Blackwell(5.6 PFLOPS)看似只比 Hopper(2.8 PFLOPS)具備 2 倍的優勢。然而,一旦將視角轉向實際產出的分母,結果便呈現指數級的分歧。在單顆 GPU 的每秒詞元產量上,Hopper 僅有 90 個,而 Blackwell 則高達 6,000 個(相差 65 倍);在每百萬瓦電力的每秒詞元產出上,Blackwell 達到 280 萬個,是 Hopper(5.4 萬個)的 50 倍

匯總這些真實輸出數據後,反映在「每百萬詞元成本」這項終極指標上:Hopper 需要耗費 4.20 美元,而 Blackwell 僅需 0.12 美元,總體成本大幅降低了 35 倍。這項驚人的數據證實,Blackwell 架構帶來的商業價值躍升幅度遠超系統建置成本的增長,也宣告依賴硬體規格來計算推論經濟學的方法已經完全失效。

NVIDIA 結合 vLLM 等開源軟體的長期優勢

跳脫投入指標的侷限,精準評估 AI 基礎設施的營收潛力與獲利能力,必須將焦點轉移至每詞元成本與實際交付的詞元吞吐量。NVIDIA 透過在運算、網路、記憶體、儲存、軟體及合作夥伴技術之間進行極致的軟硬體協同設計(Extreme codesign),成功在業界交付了最低的詞元成本與最高的詞元處理量。

受惠於建立在 NVIDIA 平台上的開源推論軟體生態系,包含 vLLMSGLangNVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等堆疊的持續最佳化。這代表企業在購入現有硬體後,其基礎設施的詞元產出量仍會隨著軟體更新而不斷增加,促使每詞元成本在生命週期內持續探底。

盤點各大頂尖雲端供應商的佈局,包含 CoreWeaveNebiusNscale 以及 Together AI 等雲端合作夥伴,均已在超大規模部署中展現這項優勢。這些企業透過導入 NVIDIA Blackwell 基礎設施並深度優化服務堆疊,藉由軟硬體協同優勢為市場帶來當前業界最低的詞元生成成本。

評估 AI 硬體不應只看理論算力,真實的「每詞元成本」才是決定推論服務能否獲利與規模化的唯一指標。

Abstract

Cost per token is crucial for AI infrastructure TCO assessment due to its focus on delivered intelligence, integrating hardware, software, and utilization efficiencies. Unlike traditional metrics like compute cost or FLOPS per dollar, cost per token highlights real-world performance, enabling profitable AI scaling. Evidence from NVIDIA shows its Blackwell platform drastically reduces cost per token compared to Hopper, offering significant business value.