長文本 LLM 推論準確率下降易引發重試，透過 LAAR 路由技術最高可縮短 49% 獲得正確答案的延遲時間。

AI 導讀 technology infrastructure 重要性 4/5

單次推論延遲無法真實反映長文本服務效能，錯誤解答引發的重試會帶來嚴重累積延遲。
實測顯示模型參數量不代表長文本準確率，小模型 Phi3-mini 表現經常超越同系大模型。
LAAR 演算法結合預期成功機率與負載延遲，在 A100 叢集實測中將獲取正確答案時間縮短 49%。

在分散式大型語言模型（LLM）的調度系統中，過去多半將延遲與吞吐量視為唯一指標。然而 IBM 與台夫特理工大學的最新研究指出，當處理數萬字元的長文本時，模型的準確率會大幅度波動。一旦系統給出錯誤答案並觸發重試，這些隱藏的等待時間會直接拖垮整體效能。為此，研究團隊提出 LAAR（輕量化準確率感知路由），在叢集實測中成功將「獲得正確答案的時間」縮短了最高 49%。

長文本調度挑戰：單次推論延遲無法反映真實時間

分散式 LLM 服務系統通常會依賴負載感知或快取親和性來分配請求，藉此壓低單次推論的延遲。但長文本工作負載改變了這項遊戲規則。在包含數十萬甚至數百萬個詞彙的情境中，例如檢索增強生成（RAG）或工具代理程式，推論的準確度變得相當不穩定。

當使用者或上游系統因為收到錯誤的 JSON 格式或錯誤的檢索結果而發起重試時，這些額外的嘗試次數會讓單次推論的延遲數據失去意義。這種因為準確率低落而引發的重試動態，會轉化為使用者端體感到的累積延遲。

為了量化這種現象，研究團隊定義了 TTCA（Time-to-Correct-Answer，獲得首個正確答案的時間） 指標。這個指標不只測量模型吐出字元的速度，而是計算從發送第一個請求開始，直到系統給出正確答案所需的整體真實時間（Wall-clock time）。在長文本服務中，更高的準確率能直接減少重試次數，因此「準確度」本質上已經成為一種「速度」。

實測 64K 文本：Phi3-mini 跨區間擊敗 8B 模型

為了理解長文本對準確率的實際影響，研究人員在配備 80GB 記憶體的 NVIDIA A100 GPU 上執行 vLLM v0.16.0 伺服器。他們採用修改過的 SCBench 鍵值檢索資料集，將文本截斷成 4K 到 64K 等多種長度，並翻譯成英文、日文與中文，藉此測試模型在極端條件下的穩定性。

實測數據打破了「模型越大越好」的傳統認知。在準確率表現上，較小型的 Phi3-mini 在多個長度區間表現優異，甚至明顯超越了同系列的 Phi3-medium。同時，Granite3.1-2B 在短文本不如 Granite3.1-8B，卻在 32K 與 64K 長度時實現反超。

至於 Llama3.1-Swallow-8B 則呈現明顯的斷崖式衰退：在 4K 到 16K 範圍內具備強大競爭力，但一旦跨越 32K 門檻，準確率便在所有語言測試中急遽崩潰。相對而言，不同模型的延遲排名則十分穩定，不受文本長度與語言影響。這意味著在叢集中，最佳的路由選擇並非固定不變，而是會隨著提示詞長度與語言產生動態洗牌。

導入 TTCA 指標與 LAAR 輕量化路由演算法

面對變動劇烈的準確率，現有的語義路由通常需要動用額外的模型來分析提示詞意圖，這在控制平面（Control plane）會產生難以忽視的運算負擔。研究團隊提出的 LAAR（Lightweight Accuracy-Aware Routing，輕量化準確率感知路由） 則改走低運算力路線，完全不依賴深度的語義解析。

系統會擷取請求中的輕量特徵，例如文本長度級距與字元語言（如 ASCII 或中日文），再套用離線訓練好的邏輯斯迴歸（Logistic regression）模型。這個迴歸模型能快速預測特定模型產生正確解答的「預期成功機率」。

在執行階段，LAAR 會將模型的「預期延遲」除以「預期成功機率」，計算出一個綜合成本分數。若某個請求遭遇失敗並觸發重試，演算法會對先前失敗的模型施加懲罰，避免系統陷入重複呼叫同一個不相容模型的死胡同。所有計算都在 CPU 端以常數時間完成，確保調度決策不會成為伺服器的高負載瓶頸。

A100 叢集實測：LAAR 路由架構提升 49% 效能

在五台 vLLM 實例組成的叢集環境中，研究人員將並發請求數設定為 8，並允許最多 10 次重試。測試對比了常規的負載感知路由（Load-aware routing）、會話親和性路由（Session-affinity routing）以及 LAAR 在處理長文本時的 TTCA 表現。

驗證結果顯示，雖然 LAAR 在首次嘗試的成功率不見得是最高，但隨著重試次數推進，它總能最快找到適合的備用模型。在最高 10 次重試的最終統計中，LAAR 的 TTCA 表現比負載感知路由快了 31%，更比會話親和性路由大幅領先 49%。

會話親和性路由在長文本環境中表現最差，因為它傾向將同一個請求反覆傳送給同一個模型；當該模型在特定長度存在罩門時，就會白白浪費時間。相對地，負載感知路由在 64K 文本的極高負載情境下，由於能有效分散排隊時間，反而取得了接近甚至略低於 LAAR 的絕對時間，但代價是最終系統的整體成功率較低。

快取與正確率的拉扯：多目標路由的未來基礎設施

這項研究證明在分散式長文本推論系統中，將「準確率」視為第一級的系統效能指標具有實質意義。僅僅追求最快的單次回應時間，若換來一連串的錯誤與重試，反而會大幅拉長使用者的等待時間。

未來的調度系統勢必需要處理更複雜的權衡。例如保留共同前綴字首（Prefix）能大幅降低預填充（Prefill）的運算成本，但如果過度堅持快取親和性，可能會讓系統在決定性解碼（Deterministic decoding）下不斷撞牆，反覆得到錯誤結果。

如何在「切換到準確率更高的模型」與「保留現有記憶體快取」之間找到最佳平衡點，將是分散式推論基礎設施的下一步。隨著更多多輪對話與代理系統投入生產環境，這類結合成功率預測與負載平衡的多目標路由器，將成為維持大型語言模型服務品質的關鍵元件。

在長文本 AI 服務叢集中，單次回應速度不再是王道；減少重試次數、最快給出正確解答才是真正的效能指標。

Abstract

Distributed LLM serving systems optimize per-request latency and throughput. However, under long-context workloads, inference accuracy becomes more variable. When incorrect responses trigger retries, accuracy directly translates into cumulative user-visible delay that is not captured by single-shot latency metrics. In this work, we argue that under long-context serving, \textbf{accuracy becomes speed} through retry dynamics. We introduce \textit{Time-to-Correct-Answer (TTCA)}, a metric that measures the wall-clock time required to obtain the first correct response. Our measurement study shows that prompt characteristics such as length and language amplify accuracy variance, which inflates TTCA. We demonstrate \textit{Lightweight Accuracy-Aware Routing (LAAR)}, a capability-based routing design that reduces TTCA. Our results suggest that in long-context distributed serving, accuracy should be treated as a first-class systems objective.

Accuracy Is Speed: Towards Long-Context-Aware Routing for Distributed LLM Serving

長文本調度挑戰：單次推論延遲無法反映真實時間

實測 64K 文本：Phi3-mini 跨區間擊敗 8B 模型

導入 TTCA 指標與 LAAR 輕量化路由演算法

A100 叢集實測：LAAR 路由架構提升 49% 效能

快取與正確率的拉扯：多目標路由的未來基礎設施

Abstract

🔗 相關推薦

透過階層實體耦合與僅 2,560 參數的微型介面，熱力學擴散推論能在維持 0.99 準確度下節省 1,000 萬倍能耗。

研究證實量子幾何半金屬能在 1 kV/cm 電場下，利用帶間躍遷達成 2-3 飛秒的極速電流切換，突破太赫茲極限。

氫燃料旋轉爆震引擎的 3D 模擬證實，圓孔端壁結合垂直傾斜前緣的薄膜冷卻，能利用爆震波特性反向提升渦輪葉片降溫效率。