Accuracy Is Speed: Towards Long-Context-Aware Routing for Distributed LLM Serving

Takeshi Yoshimura, Valentijn Dymphnus van de Beek, Tatsuhiro Chiba

View Original ↗
AI 導讀 technology infrastructure 重要性 4/5

長文本 LLM 推論準確率下降易引發重試,透過 LAAR 路由技術最高可縮短 49% 獲得正確答案的延遲時間。

  • 單次推論延遲無法真實反映長文本服務效能,錯誤解答引發的重試會帶來嚴重累積延遲。
  • 實測顯示模型參數量不代表長文本準確率,小模型 Phi3-mini 表現經常超越同系大模型。
  • LAAR 演算法結合預期成功機率與負載延遲,在 A100 叢集實測中將獲取正確答案時間縮短 49%。

在分散式大型語言模型(LLM)的調度系統中,過去多半將延遲與吞吐量視為唯一指標。然而 IBM 與台夫特理工大學的最新研究指出,當處理數萬字元的長文本時,模型的準確率會大幅度波動。一旦系統給出錯誤答案並觸發重試,這些隱藏的等待時間會直接拖垮整體效能。為此,研究團隊提出 LAAR(輕量化準確率感知路由),在叢集實測中成功將「獲得正確答案的時間」縮短了最高 49%

長文本調度挑戰:單次推論延遲無法反映真實時間

分散式 LLM 服務系統通常會依賴負載感知或快取親和性來分配請求,藉此壓低單次推論的延遲。但長文本工作負載改變了這項遊戲規則。在包含數十萬甚至數百萬個詞彙的情境中,例如檢索增強生成(RAG)或工具代理程式,推論的準確度變得相當不穩定。

當使用者或上游系統因為收到錯誤的 JSON 格式或錯誤的檢索結果而發起重試時,這些額外的嘗試次數會讓單次推論的延遲數據失去意義。這種因為準確率低落而引發的重試動態,會轉化為使用者端體感到的累積延遲。

為了量化這種現象,研究團隊定義了 TTCA(Time-to-Correct-Answer,獲得首個正確答案的時間) 指標。這個指標不只測量模型吐出字元的速度,而是計算從發送第一個請求開始,直到系統給出正確答案所需的整體真實時間(Wall-clock time)。在長文本服務中,更高的準確率能直接減少重試次數,因此「準確度」本質上已經成為一種「速度」。

實測 64K 文本:Phi3-mini 跨區間擊敗 8B 模型

為了理解長文本對準確率的實際影響,研究人員在配備 80GB 記憶體的 NVIDIA A100 GPU 上執行 vLLM v0.16.0 伺服器。他們採用修改過的 SCBench 鍵值檢索資料集,將文本截斷成 4K 到 64K 等多種長度,並翻譯成英文、日文與中文,藉此測試模型在極端條件下的穩定性。

實測數據打破了「模型越大越好」的傳統認知。在準確率表現上,較小型的 Phi3-mini 在多個長度區間表現優異,甚至明顯超越了同系列的 Phi3-medium。同時,Granite3.1-2B 在短文本不如 Granite3.1-8B,卻在 32K 與 64K 長度時實現反超。

至於 Llama3.1-Swallow-8B 則呈現明顯的斷崖式衰退:在 4K 到 16K 範圍內具備強大競爭力,但一旦跨越 32K 門檻,準確率便在所有語言測試中急遽崩潰。相對而言,不同模型的延遲排名則十分穩定,不受文本長度與語言影響。這意味著在叢集中,最佳的路由選擇並非固定不變,而是會隨著提示詞長度與語言產生動態洗牌。

導入 TTCA 指標與 LAAR 輕量化路由演算法

面對變動劇烈的準確率,現有的語義路由通常需要動用額外的模型來分析提示詞意圖,這在控制平面(Control plane)會產生難以忽視的運算負擔。研究團隊提出的 LAAR(Lightweight Accuracy-Aware Routing,輕量化準確率感知路由) 則改走低運算力路線,完全不依賴深度的語義解析。

系統會擷取請求中的輕量特徵,例如文本長度級距與字元語言(如 ASCII 或中日文),再套用離線訓練好的邏輯斯迴歸(Logistic regression)模型。這個迴歸模型能快速預測特定模型產生正確解答的「預期成功機率」。

在執行階段,LAAR 會將模型的「預期延遲」除以「預期成功機率」,計算出一個綜合成本分數。若某個請求遭遇失敗並觸發重試,演算法會對先前失敗的模型施加懲罰,避免系統陷入重複呼叫同一個不相容模型的死胡同。所有計算都在 CPU 端以常數時間完成,確保調度決策不會成為伺服器的高負載瓶頸。

A100 叢集實測:LAAR 路由架構提升 49% 效能

在五台 vLLM 實例組成的叢集環境中,研究人員將並發請求數設定為 8,並允許最多 10 次重試。測試對比了常規的負載感知路由(Load-aware routing)、會話親和性路由(Session-affinity routing)以及 LAAR 在處理長文本時的 TTCA 表現。

驗證結果顯示,雖然 LAAR 在首次嘗試的成功率不見得是最高,但隨著重試次數推進,它總能最快找到適合的備用模型。在最高 10 次重試的最終統計中,LAARTTCA 表現比負載感知路由快了 31%,更比會話親和性路由大幅領先 49%

會話親和性路由在長文本環境中表現最差,因為它傾向將同一個請求反覆傳送給同一個模型;當該模型在特定長度存在罩門時,就會白白浪費時間。相對地,負載感知路由在 64K 文本的極高負載情境下,由於能有效分散排隊時間,反而取得了接近甚至略低於 LAAR 的絕對時間,但代價是最終系統的整體成功率較低。

快取與正確率的拉扯:多目標路由的未來基礎設施

這項研究證明在分散式長文本推論系統中,將「準確率」視為第一級的系統效能指標具有實質意義。僅僅追求最快的單次回應時間,若換來一連串的錯誤與重試,反而會大幅拉長使用者的等待時間。

未來的調度系統勢必需要處理更複雜的權衡。例如保留共同前綴字首(Prefix)能大幅降低預填充(Prefill)的運算成本,但如果過度堅持快取親和性,可能會讓系統在決定性解碼(Deterministic decoding)下不斷撞牆,反覆得到錯誤結果。

如何在「切換到準確率更高的模型」與「保留現有記憶體快取」之間找到最佳平衡點,將是分散式推論基礎設施的下一步。隨著更多多輪對話與代理系統投入生產環境,這類結合成功率預測與負載平衡的多目標路由器,將成為維持大型語言模型服務品質的關鍵元件。

在長文本 AI 服務叢集中,單次回應速度不再是王道;減少重試次數、最快給出正確解答才是真正的效能指標。

Abstract

Distributed LLM serving systems optimize per-request latency and throughput. However, under long-context workloads, inference accuracy becomes more variable. When incorrect responses trigger retries, accuracy directly translates into cumulative user-visible delay that is not captured by single-shot latency metrics. In this work, we argue that under long-context serving, \textbf{accuracy becomes speed} through retry dynamics. We introduce \textit{Time-to-Correct-Answer (TTCA)}, a metric that measures the wall-clock time required to obtain the first correct response. Our measurement study shows that prompt characteristics such as length and language amplify accuracy variance, which inflates TTCA. We demonstrate \textit{Lightweight Accuracy-Aware Routing (LAAR)}, a capability-based routing design that reduces TTCA. Our results suggest that in long-context distributed serving, accuracy should be treated as a first-class systems objective.