Moonshot AI and Tsinghua Researchers Propose PrfaaS: A Cross-Datacenter KVCache Architecture that Rethinks How LLMs are Served at Scale

Asif Razzaq

View Original ↗
AI 導讀 technology infrastructure 重要性 4/5

Moonshot AI 與清華大學提出 PrfaaS 架構,透過跨資料中心部署將 1T 參數模型推論吞吐量提升 54%。

  • PrfaaS 架構透過商用乙太網路跨叢集傳輸 KVCache,打破單一資料中心的硬體部署限制。
  • 混合注意力機制將 1T 模型的 KVCache 傳輸需求降至 3.19 Gbps,使乙太網路傳輸成為可能。
  • 導入動態分流與排程器後,搭配 H200/H20 異質硬體可將首字延遲 P90 指標大幅縮減 64%。

月之暗面(Moonshot AI)與清華大學透過跨資料中心架構,將 1T 參數模型推論吞吐量提升 54%。新技術 PrfaaS 打破高成本網路限制,僅耗用 13% 乙太網路頻寬,便成功將預填充與解碼階段跨叢集分離。

傳統 GQA 模型的 60 Gbps 資料傳輸瓶頸

要理解 PrfaaS 解決了什麼問題,必須先探討為什麼 LLM(大型語言模型)的推論過程會被拆分為兩個階段。預填充(Prefill)階段負責處理所有輸入詞元並生成 KVCache,這是一個高度密集的運算過程;解碼(Decode)階段則負責逐一生成輸出詞元,極度依賴記憶體頻寬。目前業界普遍採用 PD 分離(Prefill-decode disaggregation)技術,將這兩個階段拆分到不同的硬體上運行,藉此提升資源利用率並進行獨立最佳化。

然而,將預填充與解碼階段分離,會衍生出嚴峻的數據傳輸難題。當預填充在一組機器上完成後,系統必須將龐大的 KVCache 傳送到負責解碼的機器,才能開始生成輸出。在傳統採用 GQA(Grouped Query Attention,分組查詢注意力)機制的密集注意力模型中,KVCache 的體積極其驚人。

研究團隊以具代表性的密集模型 MiniMax-M2.5 進行測試,發現在單一 8×H200 實例上處理 32K 詞元的請求時,該模型會產生約 60 Gbps 的 KVCache。如此龐大的資料量必須仰賴 RDMA(Remote Direct Memory Access,遠端直接記憶體存取)等級的高頻寬網路才能無縫傳輸,這也是為什麼傳統的 PD 分離架構只能侷限在單一資料中心的網路環境中,甚至被迫綁定在同一個機架內。

混合架構讓 Ring 模型縮減 36 倍 KV 記憶體

讓 PrfaaS 得以實現的關鍵,在於模型架構本身正迎來根本性的轉變。越來越多新型模型(如 Kimi Linear、MiMo-V2-Flash、Qwen3.5-397B 與 Ring-2.5-1T)開始採用混合注意力機制,這類架構會將少數的完整注意力層,與大量線性複雜度或有界狀態層(如 MLA、KDA 或 SWA)交錯堆疊。在這些新架構中,只有完整注意力層會產生隨序列長度遞增的 KVCache,其餘線性複雜度層在長文本處理時的記憶體佔用幾乎可以忽略不計。

數據直接印證了這項改變:在處理 32K 詞元時,MiMo-V2-Flash 的 KVCache 傳輸率僅需 4.66 Gbps,對比 MiniMax-M2.5 的 59.93 Gbps,降幅高達 13 倍。以 Ring-2.5-1T 模型為例,研究團隊拆解了其記憶體節省的來源:MLA 機制相較於 GQA 壓縮了約 4.5 倍,而 7:1 的混合架構比例又帶來了約 8 倍的縮減,兩者疊加讓整體的 KV 記憶體消耗減少了約 36 倍

在本次研究的內部 1T 參數模型案例中,32K 詞元請求的 KV 傳輸率更低至 3.19 Gbps。這意味著,現代跨資料中心的商用乙太網路連線,已經完全具備承載此等數據量的能力,為實體分離預填充與解碼叢集創造了客觀條件。

跨資料中心設定 19.4K 詞元為動態分流基準

儘管 KVCache 體積縮小是跨資料中心 PD 分離的必要條件,但研究團隊強調,這還不足以應付真實生產環境的挑戰。現實世界的工作負載往往具有突發性、請求長度分佈極度不均、前綴快取分散,且叢集間的頻寬也會波動。如果採用簡陋的設計將所有預填充任務都丟給遠端叢集,依然會導致網路壅塞與佇列不穩定。

為此,PrfaaS 架構建構在運算、網路與儲存三大子系統之上。在運算端,系統將叢集區分為處理短請求與端到端推論的「本地 PD 叢集」,以及配備高吞吐量加速器、專注於長文本預填充的「PrfaaS 叢集」。網路端則在叢集內維持 RDMA 傳輸,並透過商用乙太網路進行跨叢集的 KVCache 傳遞。儲存子系統則建立了一個分散式混合前綴快取池,將線性注意力狀態與完整注意力區塊分開管理。

系統的核心是一套基於長度的閾值路由機制。當請求的預填充長度扣除快取後大於閾值(t)時,該請求會被送往 PrfaaS 叢集;反之則留在本地處理。在實際案例中,最佳閾值被設定為 t = 19.4K 詞元,這剛好能將大約 50% 的較長請求分流至遠端的 PrfaaS 叢集。

專屬 H200 叢集將首字延遲時間大幅縮減 50%

為了確保乙太網路路徑的可靠性,研究團隊導入了逐層預填充管線化技術,讓 KVCache 的生成與傳輸同步重疊,並透過多連線 TCP 傳輸最大化頻寬利用率。雙時間尺度的排程器則會在短期內監控連線利用率並執行快取親和性路由,長期則根據流量變化,動態重新平衡本地叢集內的預填充與解碼節點比例。

在具體案例中,團隊部署了 32 張 H200 GPU 組成 PrfaaS 叢集,搭配 64 張 H20 GPU 作為本地 PD 叢集,兩者透過提供約 100 Gbps 跨叢集頻寬的 VPC 網路相連。在最佳配置下,PrfaaS 的實際出站負載約為 13 Gbps,僅佔可用乙太網路容量的 13%,證明叢集效能瓶頸依然在於運算而非網路頻寬。

效能數據顯示,與同質性硬體基準相比,PrfaaS 架構讓平均 TTFT(Time to First Token,首字延遲)縮減了 50%,P90 延遲指標更大幅下降了 64%。若僅依賴硬體差異(全用 H200 預填充、H20 解碼)而不採用這套路由與排程邏輯,吞吐量僅能提升 1.16 倍;而完整的 PrfaaS 系統則帶來了 1.54 倍的吞吐量提升,證實了排程架構才是效能飛躍的真正關鍵。

混合注意力架構與 KVCache 壓縮技術的成熟,正讓大語言模型推論擺脫單一資料中心與高昂 RDMA 網路的束縛,迎來跨資料中心靈活調度的新時代。

Abstract

For years, the way large language models handle inference has been stuck inside a box — literally. The high-bandwidth RDMA networks that make modern LLM serving work have confined both prefill and decode to the same datacenter, sometimes even the same rack. A team of researchers at Moonshot AI and Tsinghua University is making the […] The post Moonshot AI and Tsinghua Researchers Propose PrfaaS: A Cross-Datacenter KVCache Architecture that Rethinks How LLMs are Served at Scale appeared first on MarkTechPost.