Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters (6 minute read)
Blackwell 實測將詞元成本降低 35 倍,證實「每詞元成本」是評估 AI 硬體的唯一關鍵。
- 傳統算力指標已失效,改以「每百萬詞元成本」評估 AI 硬體才能確保推論服務真實獲利。
- Blackwell 每小時單價雖高,但憑藉極大化的產出效能,DeepSeek-R1 實測詞元成本大降 35 倍。
- 極致的軟硬體協同設計結合開源生態系持續優化,能確保硬體採購後的每詞元成本不斷下降。
NVIDIA Blackwell 平台的每小時 GPU 租用成本較前代 Hopper 高出將近 2 倍,但在運行 DeepSeek-R1 模型時,其每百萬詞元生成的實際成本卻大幅降低了 35 倍。當生成式 AI 崛起,傳統資料中心已轉型為製造智慧的「AI 詞元工廠」,企業若仍依賴理論算力來評估基礎設施效益,將面臨嚴重的商業誤判。
資料中心轉型 AI 詞元工廠的評估誤區
檢視過去,傳統資料中心的主要任務僅限於儲存、檢索與處理結構化資料。踏入生成式 AI 與代理式 AI(Agentic AI)時代後,這些設施已經演變為專注於生產 AI Token(詞元,AI處理資料的基本單位)的工廠。由於 AI 推論(Inference)成為核心工作負載,基礎設施的主要產出已具象化為透過詞元封裝的人工智慧。
遭遇這項轉變,企業評估基礎設施與 TCO(總擁有成本,資產生命週期的整體花費)的經濟學視角也必須相應調整。目前仍有許多企業在採購時過度關注晶片的峰值規格,或是執著於每花費一美元能買到多少硬體運算力,也就是所謂的每美元 FLOPS(每秒浮點運算次數,衡量硬體算力)。
拆解這幾項評估指標的本質差異是企業獲利的關鍵。「運算成本」代表企業為 AI 基礎設施支付的實體租賃或買斷費用;「每美元 FLOPS」代表每一美元換取的原始運算力,但原始運算力絕對不等於真實世界的詞元產出量。真正具備商業意義的指標是「每詞元成本(Cost per token)」,即企業生產並交付每一個詞元所需的總包成本,業界通常以每百萬詞元成本來表示。前兩者僅是投入指標,企業若為了優化投入而忽略了驅動業務的產出,將會陷入嚴重的營運錯位。
降低百萬詞元成本分母的兩大商業效益
探究 AI 業務的擴展潛力,只有詞元成本才能決定企業能否在具備盈利能力的前提下持續擴張。作為唯一能直接反映硬體效能、軟體最佳化、生態系支援以及真實世界利用率的 TCO 指標,深入理解詞元成本的運作機制至關重要。攤開每百萬詞元成本的計算公式,可以看出其數值等於「每小時單顆 GPU 成本」除以「每小時實際交付的詞元產出量」。
觀察多數企業在評估 AI 基礎設施時,往往緊盯著公式的分子:對於雲端部署而言是支付給雲端供應商的每小時費率,對於地端部署則是攤提自有硬體後的有效每小時成本。然而,真正能大幅壓低詞元成本的關鍵在於公式的分母,也就是如何將實際交付的詞元產出量極大化。
推升分母的數值將帶來兩層具體的商業影響。首先是將詞元成本極小化,當詞元產出量增加並反映在成本公式中,每單位詞元成本便會隨之下降,直接擴大每一次 AI 互動服務的利潤空間。其次是將營收極大化,每秒交付更多的詞元,意味著每百萬瓦(Megawatt)電力能產出更多智慧,讓企業能在相同的基礎設施投資下,為 AI 驅動的產品與服務注入更多動能並創造更高營收。
決定 MoE 模型輸出效率的推論冰山要素
過度聚焦於公式分子,將使企業忽略驅動分母成長的真正動能,這如同面對一座「推論冰山(Inference iceberg)」。分子位於水面之上,肉眼可見且極易比較,包含每小時 GPU 成本與峰值記憶體頻寬;而分母則隱藏在水面之下,囊括了決定真實世界詞元產出量的各種關鍵技術。精準評估 AI 基礎設施的第一步,就是要探究冰山底下的全貌。
剖析深度的成本結構,必須從表層詢問推進至底層架構。表層通常只停留在單顆 GPU 成本、Petaflops 峰值算力與每美元 FLOPS,但深度的成本分析則必須拷問:大規模 MoE(混合專家模型,依任務啟動部分網路)架構的每百萬詞元成本究竟是多少?特別是在資本投入龐大的地端部署中,每百萬瓦電力實際交付的詞元輸出量能否達到極致?
確認基礎設施的完備度,還需要檢視伺服器內部的互連架構能否應付 MoE 模型複雜的「All-to-all」通訊流量。系統是否原生支援 FP4(四位元浮點數格式,可降低記憶體需求)精度?推論執行環境是否支援 Speculative decoding(推測解碼,用小模型加速大模型生成)或多詞元預測(Multi-token prediction)來提升生成速度?
配置伺服層級的最佳化時,系統需支援解耦服務(Disaggregated serving)、KV 感知路由與 KV-cache(鍵值快取,儲存過去運算結果)卸載等進階技術。同時,平台必須能滿足代理式 AI 極低延遲、高吞吐量以及超長輸入序列的獨特需求。上述所有演算法、軟硬體最佳化都必須緊密整合,否則一顆看似便宜卻每秒產出極低詞元的 GPU,最終只會帶來極高的真實推論成本。
DeepSeek-R1 實測:Blackwell 成本降 35 倍
導入真實世界的 AI 模型實測數據,最能凸顯理論算力與實際商業成果之間的顯著差異。以 DeepSeek-R1 模型的運算表現為例,若單看運算成本,NVIDIA Blackwell 平台(GB300 NVL72)的單顆 GPU 每小時成本約為 2.65 美元,是前代 NVIDIA Hopper 架構(HGX H200,1.41 美元)的將近 2 倍。
對比單純以每美元 FLOPS 計算的理論數據,Blackwell(5.6 PFLOPS)看似只比 Hopper(2.8 PFLOPS)具備 2 倍的優勢。然而,一旦將視角轉向實際產出的分母,結果便呈現指數級的分歧。在單顆 GPU 的每秒詞元產量上,Hopper 僅有 90 個,而 Blackwell 則高達 6,000 個(相差 65 倍);在每百萬瓦電力的每秒詞元產出上,Blackwell 達到 280 萬個,是 Hopper(5.4 萬個)的 50 倍。
匯總這些真實輸出數據後,反映在「每百萬詞元成本」這項終極指標上:Hopper 需要耗費 4.20 美元,而 Blackwell 僅需 0.12 美元,總體成本大幅降低了 35 倍。這項驚人的數據證實,Blackwell 架構帶來的商業價值躍升幅度遠超系統建置成本的增長,也宣告依賴硬體規格來計算推論經濟學的方法已經完全失效。
NVIDIA 結合 vLLM 等開源軟體的長期優勢
跳脫投入指標的侷限,精準評估 AI 基礎設施的營收潛力與獲利能力,必須將焦點轉移至每詞元成本與實際交付的詞元吞吐量。NVIDIA 透過在運算、網路、記憶體、儲存、軟體及合作夥伴技術之間進行極致的軟硬體協同設計(Extreme codesign),成功在業界交付了最低的詞元成本與最高的詞元處理量。
受惠於建立在 NVIDIA 平台上的開源推論軟體生態系,包含 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等堆疊的持續最佳化。這代表企業在購入現有硬體後,其基礎設施的詞元產出量仍會隨著軟體更新而不斷增加,促使每詞元成本在生命週期內持續探底。
盤點各大頂尖雲端供應商的佈局,包含 CoreWeave、Nebius、Nscale 以及 Together AI 等雲端合作夥伴,均已在超大規模部署中展現這項優勢。這些企業透過導入 NVIDIA Blackwell 基礎設施並深度優化服務堆疊,藉由軟硬體協同優勢為市場帶來當前業界最低的詞元生成成本。
評估 AI 硬體不應只看理論算力,真實的「每詞元成本」才是決定推論服務能否獲利與規模化的唯一指標。