WORC 框架透過群體智能演算法精準定位多智能體系統的「弱勢節點」，並重新分配運算預算，在 6 大推理測試達到 82.2

AI 導讀 technology AI 重要性 4/5

WORC 框架透過群體智能演算法精準定位多智能體系統的「弱勢節點」，並重新分配運算預算，在 6 大推理測試達到 82.2% 準確率。

WORC 透過結合任務的語意與結構特徵，能零樣本預測並定位協作系統中表現最差的智能體。
反直覺的資源配置策略將大量推理預算保留給弱點節點，透過重複採樣阻斷錯誤在系統中的連鎖反應。
此最佳化機制具備跨框架泛化能力，搭載 DeepSeek-V3 時更在數學基準測試中達到 98.2% 準確率。

多智能體協作在大型語言模型的複雜推理任務中展現了極大潛力，但系統往往會因為單一「弱勢節點」的錯誤而導致整體邏輯崩潰。一項刊登於 arXiv 的最新研究提出 WORC 框架，透過群體智能演算法精準找出系統中的弱點，並反直覺地將額外的推理運算資源傾斜分配給表現最差的智能體。實驗結果顯示，這項「補短板」策略讓系統在 6 大推理基準測試中達到 82.2% 的平均準確率，相較現有 AFlow 方法提升了 6.1%，徹底打破了過去一味追求強化菁英智能體的設計慣性。

多智能體推理的系統性瓶頸與短板效應

LLM（大型語言模型）在生成任務上表現優異，但面對數學解題與邏輯推理時仍有侷限。為了突破此瓶頸，研究人員開發了諸如 CoT（思維鏈，引導模型拆解推理步驟的提示技術）與多智能體（Multi-Agent）框架。後者透過分配不同角色（如規劃、反思、工具呼叫）讓專業智能體相互協作，大幅提升了模型解決長跨度決策任務的能力。

然而，在複雜的推理任務中，多智能體框架面臨著嚴峻的協調挑戰。一條推理路徑的可靠度，取決於所有組成環節的複合機率。在這種架構下，系統中表現不佳的個體（即弱勢智能體）會產出不精確的推理或錯誤的決策，進而損害整體的可靠性。傳統的設計思維通常專注於強化高能力的智能體，或是採用多數決（Majority Voting）與辯論等共識機制，但這些方法依然無法克服高變異性的效能波動。

具體而言，這種脆弱性表現在兩個層面。首先是跨推理階段的錯誤累積，前一個智能體的輸出若帶有偏差，會直接被下游智能體放大；其次是共識退化，當系統中存在能力參差不齊的節點時，低能力智能體的錯誤發言往往會污染辯論過程，導致整體決策品質下降。基於系統工程中著名的「木桶效應」，整體表現受限於最短的那塊木板，針對弱點進行補償成為提升推理系統穩健性的關鍵。

WORC 框架的兩階段機制與任務特徵定位

為了解決弱點放大的問題，研究團隊提出了 WORC（弱勢連結最佳化）框架，並將其分為「弱勢智能體定位」與「弱點最佳化」兩個階段。在定位階段，系統首先利用 SIAs（群體智能演算法，模擬生物集體行為的最佳化技術）在少樣本數據上進行訓練，藉此評估不同智能體在特定任務中的貢獻度，並將其轉化為數值化的權重向量知識庫。

當系統面對全新的推理任務時，WORC 會為該任務建立專屬的「任務特徵（Task Signature）」。這個特徵結合了 OpenAI Embeddings 提取的語意嵌入（Semantic Embeddings），以及包含文本長度、實體數量、邏輯與數學運算元比例的結構統計特徵。這種設計不僅捕捉了任務間的語意關聯，也量化了結構上的相似度。

接著，系統會透過一個基於元學習（Meta-Learning）的權重預測模型，將新任務的特徵映射到知識庫中，實現零樣本（Zero-shot）的權重預測。在這個預測結果中，被賦予最低權重數值的節點，即被系統標記為當次任務的「弱勢智能體」。

逆向資源配置：將高運算預算投資弱勢節點

進入「弱點最佳化」階段後，WORC 採取了一套反直覺的運算預算分配策略。有別於傳統將資源集中於表現最好的模型，WORC 的不確定性驅動分配機制會將額外的重複採樣額度（Repeated-sampling Quotas）分配給預測權重較低的智能體。透過指數型的分配公式，權重越低的智能體將獲得越多重新生成答案的機會。

這種分配策略的邏輯在於以「量」補「質」。弱勢智能體透過多次重複生成，可以彌補單次推理可靠性不足的缺陷。系統將這些重複生成的內容作為後續生成的上下文，確保迭代過程具有經驗引導性，而非單純的盲目隨機生成。最後，系統透過投票聚合模組選出最合理的輸出，交接給下一個推理環節。

為了驗證此框架，研究團隊構建了一個名為 AgentChain (AC) 的基礎多智能體鏈，包含四個核心角色：資料收集、問題理解、步驟推理與問題解決智能體。在這個封閉的鏈狀結構中，弱勢智能體的重複輸出會透過自迴圈（Self-loops）不斷競爭預算，最終產出最佳化的單節點決策。

六大測試達 82.2% 準確率與跨框架泛化驗證

在涵蓋進階數學（MATH）、常識問答（MMLU-CF）、多跳推理（HotpotQA）與長文本推理（LongBench）等六大基準測試中，搭載 GPT-4o 的 WORC 框架展現了極高的穩定性。實驗結果顯示，WORC 取得了平均 82.2% 的準確率，大幅超越了 FoT 模型的 75.9% 與 AFlow 框架的 76.1%。其中在 HotpotQA 達到 83.2%，在 LongBench 達到 68.4%，證明該方法在應對高複雜度任務時尤為有效。

除了原生驗證，WORC 也能作為通用擴充模組整合至其他主流多智能體架構中。測試數據指出，將 WORC 導入 MetaGPT、HIMA、MAS2 等現有框架後，系統平均準確率分別提升了 4.0%、3.3% 與 3.0%。這證明了「補短板」的策略具備高度的跨架構泛化能力，並非僅依賴單一系統設計。

研究也進一步對比了不同基礎模型的驅動效果。當系統底層改用 DeepSeek-V3 時，整體效能出現了爆炸性成長，在 MATH 測試達到 89.3%，在小學數學 GSM8K 甚至創下 98.2% 的極端高分，明顯拉開了與 Qwen-Turbo 及小參數 GPT 模型的差距。

任務特徵消融實驗與跨任務泛化分析

為了釐清各組件的具體貢獻，團隊進行了系統性的消融實驗。在任務特徵的設計上，若單獨移除「語意嵌入」或「結構統計特徵」，系統在六大基準的平均準確率會分別下滑 2.3 與 2.2 個百分點。這表明語意表徵提供了跨任務匹配的基礎，而結構特徵則是在 MMLU-CF 等複雜文本任務中微調權重的重要輔助訊號。

在資源分配策略的對比中，與齊頭式平等的「均勻分配（Uniform Allocation）」（平均 80.0%）相比，WORC 的動態自適應分配能達到 82.2%。特別是在長文本與多跳推理任務中，動態分配帶來的效能增益高達 3.2 個百分點，證明了依賴靜態規則無法有效反映真實任務中的動態推理難度。

最後，在跨任務的元學習遷移測試中，WORC 同樣保持了韌性。例如將模型在 GSM8K 資料集上訓練權重預測器，並直接在未見過的 MATH 測試集上執行，仍能保有 86.3% 的高準確率。這說明任務特徵與元學習機制的結合，成功捕捉到了超越單一資料夾限制的底層協作規律。

多智能體系統的可靠性不再取決於最強模型的表現上限，而是建立在對弱點環節的系統性辨識、動態運算補償與資源重分配之上。

Abstract

LLM-driven multi-agent frameworks address complex reasoning tasks through multi-role collaboration. However, existing approaches often suffer from reasoning instability, where individual agent errors are amplified through collaboration, undermining overall performance. Current research mainly focuses on enhancing high-capability agents or suppressing unreliable outputs to improve framework effectiveness, while systematic identification and reinforcement of performance-limiting agents receive less attention. To address this gap, we propose WORC, a \underline{w}eak-link \underline{o}ptimization framework for multi-agent \underline{r}easoning and \underline{c}ollaboration, grounded in the weak-link principle. WORC follows a two-stage workflow. In the weak agent localization stage, task features are constructed, and a meta-learning-based weight predictor trained on optimal configurations identified by swarm intelligence algorithms (SIAs) enables zero-shot mapping from these features to agent performance weights, where the agent with the lowest predicted weight is identified as the weak agent. In the weak-link optimization stage, an uncertainty-driven allocation strategy assigns additional reasoning budgets to weak agents, with lower predicted weights leading to larger repeated-sampling quotas to compensate for reliability deficiencies. Experimental results show that WORC achieves an average accuracy of 82.2\% on reasoning benchmarks while improving framework stability and cross-architecture generalization, suggesting that compensating for weak links, rather than reinforcing strengths alone, enhances the robustness of multi-agent systems.

Weak-Link Optimization for Multi-Agent Reasoning and Collaboration

多智能體推理的系統性瓶頸與短板效應

WORC 框架的兩階段機制與任務特徵定位

逆向資源配置：將高運算預算投資弱勢節點

六大測試達 82.2% 準確率與跨框架泛化驗證

任務特徵消融實驗與跨任務泛化分析

Abstract

🔗 相關推薦

在7項變數測試中，傳統邏輯迴歸外部驗證AUC達0.95，表現更勝複雜神經網路。

盲目採取多位專家的多數決反而會拉低 AI 效能！評估標註者的「可學習性」才是建立強大黃金標準的關鍵。

Neural CTMC 模型將馬可夫鏈拆解為跳躍時間與方向雙神經網路，以純均勻前向過程在 TinyStories 創下 ≤16.36 困惑度，打破遮罩擴散模型的統治地位。