Weak-Link Optimization for Multi-Agent Reasoning and Collaboration

Haoyu Bian, Chaoning Zhang, Jiaquan Zhang, Xingyao Li, Yuanfang Guo, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

WORC 框架透過群體智能演算法精準定位多智能體系統的「弱勢節點」,並重新分配運算預算,在 6 大推理測試達到 82.2% 準確率。

  • WORC 透過結合任務的語意與結構特徵,能零樣本預測並定位協作系統中表現最差的智能體。
  • 反直覺的資源配置策略將大量推理預算保留給弱點節點,透過重複採樣阻斷錯誤在系統中的連鎖反應。
  • 此最佳化機制具備跨框架泛化能力,搭載 DeepSeek-V3 時更在數學基準測試中達到 98.2% 準確率。

多智能體協作在大型語言模型的複雜推理任務中展現了極大潛力,但系統往往會因為單一「弱勢節點」的錯誤而導致整體邏輯崩潰。一項刊登於 arXiv 的最新研究提出 WORC 框架,透過群體智能演算法精準找出系統中的弱點,並反直覺地將額外的推理運算資源傾斜分配給表現最差的智能體。實驗結果顯示,這項「補短板」策略讓系統在 6 大推理基準測試中達到 82.2% 的平均準確率,相較現有 AFlow 方法提升了 6.1%,徹底打破了過去一味追求強化菁英智能體的設計慣性。

多智能體推理的系統性瓶頸與短板效應

LLM(大型語言模型)在生成任務上表現優異,但面對數學解題與邏輯推理時仍有侷限。為了突破此瓶頸,研究人員開發了諸如 CoT(思維鏈,引導模型拆解推理步驟的提示技術)與多智能體(Multi-Agent)框架。後者透過分配不同角色(如規劃、反思、工具呼叫)讓專業智能體相互協作,大幅提升了模型解決長跨度決策任務的能力。

然而,在複雜的推理任務中,多智能體框架面臨著嚴峻的協調挑戰。一條推理路徑的可靠度,取決於所有組成環節的複合機率。在這種架構下,系統中表現不佳的個體(即弱勢智能體)會產出不精確的推理或錯誤的決策,進而損害整體的可靠性。傳統的設計思維通常專注於強化高能力的智能體,或是採用多數決(Majority Voting)與辯論等共識機制,但這些方法依然無法克服高變異性的效能波動。

具體而言,這種脆弱性表現在兩個層面。首先是跨推理階段的錯誤累積,前一個智能體的輸出若帶有偏差,會直接被下游智能體放大;其次是共識退化,當系統中存在能力參差不齊的節點時,低能力智能體的錯誤發言往往會污染辯論過程,導致整體決策品質下降。基於系統工程中著名的「木桶效應」,整體表現受限於最短的那塊木板,針對弱點進行補償成為提升推理系統穩健性的關鍵。

WORC 框架的兩階段機制與任務特徵定位

為了解決弱點放大的問題,研究團隊提出了 WORC(弱勢連結最佳化)框架,並將其分為「弱勢智能體定位」與「弱點最佳化」兩個階段。在定位階段,系統首先利用 SIAs(群體智能演算法,模擬生物集體行為的最佳化技術)在少樣本數據上進行訓練,藉此評估不同智能體在特定任務中的貢獻度,並將其轉化為數值化的權重向量知識庫。

當系統面對全新的推理任務時,WORC 會為該任務建立專屬的「任務特徵(Task Signature)」。這個特徵結合了 OpenAI Embeddings 提取的語意嵌入(Semantic Embeddings),以及包含文本長度、實體數量、邏輯與數學運算元比例的結構統計特徵。這種設計不僅捕捉了任務間的語意關聯,也量化了結構上的相似度。

接著,系統會透過一個基於元學習(Meta-Learning)的權重預測模型,將新任務的特徵映射到知識庫中,實現零樣本(Zero-shot)的權重預測。在這個預測結果中,被賦予最低權重數值的節點,即被系統標記為當次任務的「弱勢智能體」。

逆向資源配置:將高運算預算投資弱勢節點

進入「弱點最佳化」階段後,WORC 採取了一套反直覺的運算預算分配策略。有別於傳統將資源集中於表現最好的模型,WORC 的不確定性驅動分配機制會將額外的重複採樣額度(Repeated-sampling Quotas)分配給預測權重較低的智能體。透過指數型的分配公式,權重越低的智能體將獲得越多重新生成答案的機會。

這種分配策略的邏輯在於以「量」補「質」。弱勢智能體透過多次重複生成,可以彌補單次推理可靠性不足的缺陷。系統將這些重複生成的內容作為後續生成的上下文,確保迭代過程具有經驗引導性,而非單純的盲目隨機生成。最後,系統透過投票聚合模組選出最合理的輸出,交接給下一個推理環節。

為了驗證此框架,研究團隊構建了一個名為 AgentChain (AC) 的基礎多智能體鏈,包含四個核心角色:資料收集、問題理解、步驟推理與問題解決智能體。在這個封閉的鏈狀結構中,弱勢智能體的重複輸出會透過自迴圈(Self-loops)不斷競爭預算,最終產出最佳化的單節點決策。

六大測試達 82.2% 準確率與跨框架泛化驗證

在涵蓋進階數學(MATH)、常識問答(MMLU-CF)、多跳推理(HotpotQA)與長文本推理(LongBench)等六大基準測試中,搭載 GPT-4o 的 WORC 框架展現了極高的穩定性。實驗結果顯示,WORC 取得了平均 82.2% 的準確率,大幅超越了 FoT 模型的 75.9% 與 AFlow 框架的 76.1%。其中在 HotpotQA 達到 83.2%,在 LongBench 達到 68.4%,證明該方法在應對高複雜度任務時尤為有效。

除了原生驗證,WORC 也能作為通用擴充模組整合至其他主流多智能體架構中。測試數據指出,將 WORC 導入 MetaGPT、HIMA、MAS2 等現有框架後,系統平均準確率分別提升了 4.0%3.3%3.0%。這證明了「補短板」的策略具備高度的跨架構泛化能力,並非僅依賴單一系統設計。

研究也進一步對比了不同基礎模型的驅動效果。當系統底層改用 DeepSeek-V3 時,整體效能出現了爆炸性成長,在 MATH 測試達到 89.3%,在小學數學 GSM8K 甚至創下 98.2% 的極端高分,明顯拉開了與 Qwen-Turbo 及小參數 GPT 模型的差距。

任務特徵消融實驗與跨任務泛化分析

為了釐清各組件的具體貢獻,團隊進行了系統性的消融實驗。在任務特徵的設計上,若單獨移除「語意嵌入」或「結構統計特徵」,系統在六大基準的平均準確率會分別下滑 2.3 與 2.2 個百分點。這表明語意表徵提供了跨任務匹配的基礎,而結構特徵則是在 MMLU-CF 等複雜文本任務中微調權重的重要輔助訊號。

在資源分配策略的對比中,與齊頭式平等的「均勻分配(Uniform Allocation)」(平均 80.0%)相比,WORC 的動態自適應分配能達到 82.2%。特別是在長文本與多跳推理任務中,動態分配帶來的效能增益高達 3.2 個百分點,證明了依賴靜態規則無法有效反映真實任務中的動態推理難度。

最後,在跨任務的元學習遷移測試中,WORC 同樣保持了韌性。例如將模型在 GSM8K 資料集上訓練權重預測器,並直接在未見過的 MATH 測試集上執行,仍能保有 86.3% 的高準確率。這說明任務特徵與元學習機制的結合,成功捕捉到了超越單一資料夾限制的底層協作規律。

多智能體系統的可靠性不再取決於最強模型的表現上限,而是建立在對弱點環節的系統性辨識、動態運算補償與資源重分配之上。

Abstract

LLM-driven multi-agent frameworks address complex reasoning tasks through multi-role collaboration. However, existing approaches often suffer from reasoning instability, where individual agent errors are amplified through collaboration, undermining overall performance. Current research mainly focuses on enhancing high-capability agents or suppressing unreliable outputs to improve framework effectiveness, while systematic identification and reinforcement of performance-limiting agents receive less attention. To address this gap, we propose WORC, a \underline{w}eak-link \underline{o}ptimization framework for multi-agent \underline{r}easoning and \underline{c}ollaboration, grounded in the weak-link principle. WORC follows a two-stage workflow. In the weak agent localization stage, task features are constructed, and a meta-learning-based weight predictor trained on optimal configurations identified by swarm intelligence algorithms (SIAs) enables zero-shot mapping from these features to agent performance weights, where the agent with the lowest predicted weight is identified as the weak agent. In the weak-link optimization stage, an uncertainty-driven allocation strategy assigns additional reasoning budgets to weak agents, with lower predicted weights leading to larger repeated-sampling quotas to compensate for reliability deficiencies. Experimental results show that WORC achieves an average accuracy of 82.2\% on reasoning benchmarks while improving framework stability and cross-architecture generalization, suggesting that compensating for weak links, rather than reinforcing strengths alone, enhances the robustness of multi-agent systems.