透過結合蒙地卡羅樹搜尋的雙層最佳化框架，LLM 代理程式技能在複雜問答任務上的準確率從 0.906 提升至 0.937。

AI 導讀 technology AI 重要性 4/5

代理技能設計面臨高異質性與嚴格結構限制，傳統數值最佳化難以直接適用於此類非結構化變數。
新框架將問題拆解為雙層迴圈：外層使用 MCTS 探索結構，內層運用悲觀評估機制執行內容微調。
實測顯示，將分散文件整併並加入強制性檢查表的結構化更動，是代理程式效能提升的關鍵因素。

最佳化大型語言模型（LLM）代理程式的技能結構與內容，能讓複雜問答任務的準確率從 0.906 提升至 0.937。這項來自加州大學柏克萊分校與新加坡國立大學等機構的最新研究，提出一套結合蒙地卡羅樹搜尋（MCTS）的雙層最佳化框架，將原本依賴人工反覆試錯的代理技能（Agent Skills）轉變為可系統化搜尋與驗證的工程最佳化問題。

代理技能的異質性與結構最佳化難題

回顧代理技能（Agent Skills）的發展，這是近年讓代理程式具備任務專精能力的關鍵趨勢。根據 Anthropic 提出的官方技能規範，這些技能不僅僅是一段提示詞，而是包含任務指令、工具、可執行腳本與參考文件的結構化資料夾。當代理程式執行任務時，會依循漸進式揭露原則載入這些資料夾內的元件來協助完成工作。

分析實證數據可以發現，技能的設計好壞會大幅影響代理程式的最終表現。不良的設計可能會佔據過多上下文視窗、引入無關資訊，甚至誤導代理程式的推論方向；反之，精準的技能配置則能顯著提升複雜任務的成功率。

與傳統軟體不同，技能主要透過自然語言指令與輔助材料影響代理行為，這帶來了極大的最佳化難度。首先是元件組成具有高度異質性與相互依賴性，修改任何一個檔案都可能牽動其他部分的合理性；其次，整個可行設計空間受到結構定義與上下文權杖（token）預算的嚴格限制，難以直接套用數值最佳化方法。

雙層最佳化：結構搜尋與內容微調拆解

建構這套框架的核心概念，是將技能最佳化定義為一個雙層最佳化（Bilevel Optimization）問題。由於技能可以表示為結構配置（Structure）與該結構下實例化內容（Content）的組合，研究團隊決定將這兩個高度耦合的決策空間拆開獨立處理。

整個機制分為外層與內層兩個迴圈。外層迴圈負責在候選結構樹狀圖中進行搜尋，因為結構修改具有路徑依賴性，早期的調整會決定後續修改的可行性；內層迴圈則是在外層選定的固定結構下，對關聯的腳本與文本內容進行微調。

啟動雙層迴圈前，系統會先執行一次性的「理解階段（Comprehension stage）」。這個階段負責解析原始種子技能的目錄結構與 Markdown 文件，建立初始表徵，並產生一份定義任務目標與評估標準的技能輪廓（Skill profile），以此作為後續搜尋的重要先驗知識。

外層 MCTS 搜尋：LLM 驅動的結構探索

切入外層迴圈，系統採用 MCTS（蒙地卡羅樹搜尋，用於決策樹探索的演算法）來導航離散且具組合性質的結構空間。樹狀結構中的每個節點代表一種結構狀態，邊緣則代表可允許的修改動作，例如新增區塊、移除參考資料或重新排序元件。

執行搜尋的過程遵循選擇、擴展、評估與反向傳播四個標準步驟。在「選擇」階段，系統提供上限信賴區間（UCB1）與混合機率兩種策略，後者能在獎勵訊號充滿雜訊時，於廣泛探索與專注高價值節點之間取得平衡。

進入「擴展」階段時，搜尋會完全由 LLM 驅動並分為分析、診斷與提案三個子階段。模型會檢視當前結構與過去的評估回饋，找出效能不佳的根本原因，並提出具體的結構修改動作。修改後的候選結構必須先通過有效性與預算限制檢查，才會交由內層迴圈進行評估。

針對五大微調家族的悲觀評估機制

承接外層提出的結構後，內層迴圈會先透過橋接操作，將現有內容轉移至新結構中。這個步驟的目標是在容納新引進元件的同時，盡可能保留原本可重複使用的指令與材料，產生初步對齊的文本。

執行微調的過程並非採用單一通用流程，而是根據結構變更的類型，分派至對應的五大微調家族（如元資料更新、指令文本修改、腳本生成等）。系統會在選定的家族內執行有限次數的嘗試，並將前一次的輸出作為下一次嘗試的輸入，形成微調軌跡。

考量到下游任務評估固有的隨機性與雜訊，內層迴圈嚴格採用「悲觀評估」標準。系統會計算每一次嘗試相對於基準的 LCB（信賴區間下限，用以評估改進可靠度），只有此數值大於等於零的結果才被視為有效，最後將排名最高的內容封包回傳給外層迴圈更新搜尋統計。

ORQA 測試：效能從 0.906 提升至 0.937

驗證此框架的過程中，研究團隊使用包含 1,513 個實例的開源作業研究問答（ORQA）資料集。此任務要求代理程式必須根據自然語言問題描述，精準推論出數學最佳化模型中的變數、約束條件與目標。

觀察兩種搜尋配置的表現，保守型（配置 A）與探索型（配置 B）在外層搜尋階段皆達到 0.9434 的最高獎勵。但在確認階段中，配置 B 以 0.8857 的平均得分勝出，顯示較寬容的收斂設定與混合機率選擇在處理雜訊時更具優勢。

攤開最終的獨立測試集成績，最初由 AI 生成的種子技能基準得分為 0.90625，而透過框架最佳化的技能則達到 0.9375。檢視勝出技能可以發現，它將原本分散的參考文件整合進單一主要文件中，並新增了專屬分類檢查表，強制規範了代理程式的執行順序，成為推升推理準確度的關鍵。

將代理程式技能視為雙層最佳化問題，不僅能系統化克服語言指令與程式碼混雜的結構限制，更為自動化生成複雜任務技能指引了新路徑。

Abstract

Agent \texttt{skills} are structured collections of instructions, tools, and supporting resources that help large language model (LLM) agents perform particular classes of tasks. Empirical evidence shows that the design of \texttt{skills} can materially affect agent task performance, yet systematically optimizing \texttt{skills} remains challenging. Since a \texttt{skill} comprises instructions, tools, and supporting resources in a structured way, optimizing it requires jointly determining both the structure of these components and the content each component contains. This gives rise to a complex decision space with strong interdependence across structure and components. We therefore represent these two coupled decisions as \texttt{skill} structure and component content, and formulate \texttt{skill} optimization as a bilevel optimization problem. We propose a bilevel optimization framework in which an outer loop employs Monte Carlo Tree Search to determine the \texttt{skill} structure, while an inner loop refines the component content within the structure selected by the outer loop. In both loops, we employ LLMs to assist the optimization procedure. We evaluate the proposed framework on an open-source Operations Research Question Answering dataset, and the experimental results suggest that the bilevel optimization framework improves the performance of the agents with the optimized \texttt{skill}.

Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

代理技能的異質性與結構最佳化難題

雙層最佳化：結構搜尋與內容微調拆解

外層 MCTS 搜尋：LLM 驅動的結構探索

針對五大微調家族的悲觀評估機制

ORQA 測試：效能從 0.906 提升至 0.937

Abstract

🔗 相關推薦

ExoNet 模型透過融合光變曲線與恆星參數，在兩小時內完成訓練，成功從 TESS 數據揪出高達 99.64% 信心度的類地行星目標。

HQRN 結合 10 層量子殘差塊，不僅可繼承經典權重，更成功突破對抗性量子糾纏分類。

P3T 僅以 2M 參數在 3D 分類達 94% 準確率，成功突破大模型的跨域泛化瓶頸。