Jensen Huang – TPU competition, why we should sell chips to China, & Nvidia's supply chain moat (90 minute read)
Blackwell 實現 50 倍能效躍升,黃仁勳揭露 Nvidia 透過龐大生態系與可編程性擊退 TPU 競爭的策略。
- 晶圓製造與封裝機台的擴產瓶頸均能在 2-3 年內解決,基礎能源與專業水電工才是長期限制。
- CUDA 賦予的通用可編程性允許開發者不斷創造如 MoE 等新演算法,是達成 50 倍能效躍升的關鍵。
- Nvidia 遵循「做足必要之事」哲學,選擇投資 CoreWeave 等新興業者,拒絕親自成為雲端服務商。
摩爾定律每年僅能帶來約 25% 的效能提升,但 Nvidia 最新的 Blackwell 架構卻比前代 Hopper 達成高達 50 倍的能效飛躍。面對 Google TPU 的競爭與軟體可能商品化的質疑,黃仁勳親自拆解從晶片代工、記憶體封裝到雲端部署的供應鏈護城河,並解釋不親自下場做雲端服務商的戰略考量。
Nvidia 串聯 TSMC 與生態系抵禦軟體商品化
市場對於 AI 是否會將軟體與算力徹底商品化存在疑慮。一種直觀的推論是,Nvidia 僅是提供 GDS2 設計檔案給 TSMC(台積電),由其製造 logic dies(邏輯裸片) 與交換器,再封裝來自 SK Hynix、Micron 的 HBM(高頻寬記憶體)。面對這種將 Nvidia 視為純軟體或中介者的看法,黃仁勳指出,將電子轉換為 Token 是一段極其困難的過程,其中涉及龐大的工程、科學與發明,絕對無法輕易被商品化。
梳理該公司的核心營運哲學,黃仁勳強調他們堅持「做足必要之事,其餘越少越好」。只要能交給合作夥伴的環節,就會將其納入生態系。這種極致的分工讓 Nvidia 建立起涵蓋上游供應鏈與下游應用開發者的龐大網路。上游的晶圓廠與記憶體製造商願意投入鉅資擴產,正是因為看見了 Nvidia 龐大的下游需求與消化產能的能力。
顛覆傳統認為 AI 將取代工程師與軟體工具的悲觀預測,未來 agents(AI 代理) 的數量將呈指數級增長。這意味著像是 Synopsys Design Compiler 這種專業 EDA 工具的使用量非但不會減少,反而會因為大量 AI 代理輔助工程師探索設計空間,而迎來使用次數的爆發性成長。
CoWoS 與 EUV 機台擴產僅需兩到三年的時間
確保龐大算力硬體供給的穩定性,是業界關注的焦點。對於外界擔憂 AI 需求佔據台積電 N3 節點過高比例可能導致成長停滯,黃仁勳認為在任何瞬間,市場的即時需求大於總供給是健康的產業常態。當某一特定零組件(例如過去兩年的 CoWoS 封裝技術)成為瓶頸時,整個產業鏈就會像蜂群般集中資源解決,目前台積電也已將封裝產能的擴展提升至與邏輯晶片同等的戰略高度。
盤點晶片製造的各項硬體限制,包含先進封裝、甚至極紫外光微影設備(EUV 機台),其實都不構成真正的長期阻礙。只要有明確的需求訊號,一旦能造出一台,就能造出一百萬台,這些瓶頸都能在兩到三年內被克服。Nvidia 也透過提早佈局,例如投資 Lumentum 與 silicon photonics(矽光子技術) 生態系,來預先排除未來的產能障礙。
阻礙 AI 工廠建設與產業鏈回流美國的最硬性限制,其實是基礎建設與勞動力。黃仁勳明確指出,水電工、配電工程師等專業藍領人力的短缺,以及支撐龐大運算中心所需的能源政策,才是真正需要長時間解決的挑戰。沒有充足的能源,就無法支撐下一代製造業與 AI 資料中心的擴張。
Blackwell 跨越摩爾定律達成 50 倍能效躍升
對比專注於矩陣乘法極致優化的 TPU(張量處理單元) 或其他 ASIC(特殊應用積體電路),Nvidia 的 GPU 展現出決定性的架構彈性。AI 的發展並非只有單一的矩陣運算,當研究人員需要開發全新的 attention(注意力機制)、MoE(混合專家模型) 或是結合擴散與自迴歸技術的新架構時,通用且高度可編程的硬體就成為必需品。
單靠硬體製程推進已無法滿足算力需求,必須仰賴演算法與架構的同步創新。Blackwell 之所以能在能效上取得 50 倍的跨代躍升,正是因為 CUDA 具備強大的靈活性,允許開發者持續發明新演算法,並將運算卸載至 NVLink 或 Spectrum-X 網路架構中。這是一種極端協同設計(co-design)的成果,也是缺乏可編程性的純 ASIC 難以企及的境界。
建立於龐大安裝基數上的軟體相容性,構成了最強大的商業護城河。全球有數億張 Nvidia GPU 正在運行,涵蓋各大雲端服務商及邊緣設備。無論是新創公司還是開發 vLLM、Triton 等框架的工程師,都會優先選擇在支援最廣泛的 CUDA 生態系上進行開發,這確保了其模型與軟體能無縫運行於多數環境中,進一步鞏固了最高每瓦 Token 產出率與最佳的 TCO(總體擁有成本)。
Anthropic 採用 TPU 屬特例與早期投資反思
檢視目前部分頂尖 AI 實驗室(如 Anthropic)依賴 Google 或 Broadcom 的 TPU 進行訓練的現況,這更多是歷史時空背景下的產物。在基礎模型實驗室崛起的初期,這類企業需要數十億美元的鉅額資本支出(CapEx),傳統風險投資根本無法負擔,因此只能轉向尋求 Google 或 AWS 這種具備龐大資金庫的雲端巨頭注資,並在協議下使用其自研晶片。
坦承過去的戰略誤判,黃仁勳表示當時並未深刻體認到這類基礎 AI 實驗室面臨的融資困境,且 Nvidia 當下的資金水位與投資策略,也未能允許其直接投入如此龐大的資源。若是時光倒流且具備如今的規模,他絕對會更早出手。目前 Nvidia 已經積極參與 OpenAI 與 Anthropic 的投資,以確保能協助這些前沿實驗室擴張。
維持技術領先並持續被頂尖客戶採用,仍是防禦競爭對手自行開發核心(kernels)的根本。雖然超大型雲端服務商具備編寫底層程式碼的能力,但 Nvidia 內部派駐了大量工程師與 AI 實驗室緊密合作,透過深度優化堆疊,往往能輕易榨出額外 50% 甚至數倍的效能。在動輒以億為單位的叢集規模下,這種效能提升直接轉換為實質營收,使得轉向其他硬體的經濟效益大打折扣。
投資 CoreWeave 卻不親自下場做雲端營運商
掌握滿手現金且客戶對租賃算力需求孔急,Nvidia 卻拒絕直接轉型為超大型雲端服務商(Hyperscaler)。這再次扣回其「做必要之事」的營運核心:如果 Nvidia 不投入長達 20 年的虧損去發展 CUDA,或者不開發 cuLitho(運算微影技術),這些推動產業前進的技術就永遠不會誕生,這是他們必須全力以赴的戰場。
雲端運算基礎設施已經有眾多成熟的玩家在市場上競爭,如果 Nvidia 不做雲端,市場依然會自動填補這個空缺。因此,他們選擇以高達數十億美元的規模,在背後擔保並投資像 CoreWeave、Nscale 與 Nebius 這類 neoclouds(新興 AI 雲端服務商)。這不僅能協助新創雲端業者生存並繁榮,也能擴大自身的硬體出海口,而無需越界與現有的主流雲端客戶展開零和競爭。
算力霸權的本質不僅是硬體規格的比拚,而是由軟體可編程性、龐大安裝基數與精準的供應鏈控制力所組成的複合生態圈。