Bilevel Optimization of Agent Skills via Monte Carlo Tree Search
透過結合蒙地卡羅樹搜尋的雙層最佳化框架,LLM 代理程式技能在複雜問答任務上的準確率從 0.906 提升至 0.937。
- 代理技能設計面臨高異質性與嚴格結構限制,傳統數值最佳化難以直接適用於此類非結構化變數。
- 新框架將問題拆解為雙層迴圈:外層使用 MCTS 探索結構,內層運用悲觀評估機制執行內容微調。
- 實測顯示,將分散文件整併並加入強制性檢查表的結構化更動,是代理程式效能提升的關鍵因素。
最佳化大型語言模型(LLM)代理程式的技能結構與內容,能讓複雜問答任務的準確率從 0.906 提升至 0.937。這項來自加州大學柏克萊分校與新加坡國立大學等機構的最新研究,提出一套結合蒙地卡羅樹搜尋(MCTS)的雙層最佳化框架,將原本依賴人工反覆試錯的代理技能(Agent Skills)轉變為可系統化搜尋與驗證的工程最佳化問題。
代理技能的異質性與結構最佳化難題
回顧代理技能(Agent Skills)的發展,這是近年讓代理程式具備任務專精能力的關鍵趨勢。根據 Anthropic 提出的官方技能規範,這些技能不僅僅是一段提示詞,而是包含任務指令、工具、可執行腳本與參考文件的結構化資料夾。當代理程式執行任務時,會依循漸進式揭露原則載入這些資料夾內的元件來協助完成工作。
分析實證數據可以發現,技能的設計好壞會大幅影響代理程式的最終表現。不良的設計可能會佔據過多上下文視窗、引入無關資訊,甚至誤導代理程式的推論方向;反之,精準的技能配置則能顯著提升複雜任務的成功率。
與傳統軟體不同,技能主要透過自然語言指令與輔助材料影響代理行為,這帶來了極大的最佳化難度。首先是元件組成具有高度異質性與相互依賴性,修改任何一個檔案都可能牽動其他部分的合理性;其次,整個可行設計空間受到結構定義與上下文權杖(token)預算的嚴格限制,難以直接套用數值最佳化方法。
雙層最佳化:結構搜尋與內容微調拆解
建構這套框架的核心概念,是將技能最佳化定義為一個雙層最佳化(Bilevel Optimization)問題。由於技能可以表示為結構配置(Structure)與該結構下實例化內容(Content)的組合,研究團隊決定將這兩個高度耦合的決策空間拆開獨立處理。
整個機制分為外層與內層兩個迴圈。外層迴圈負責在候選結構樹狀圖中進行搜尋,因為結構修改具有路徑依賴性,早期的調整會決定後續修改的可行性;內層迴圈則是在外層選定的固定結構下,對關聯的腳本與文本內容進行微調。
啟動雙層迴圈前,系統會先執行一次性的「理解階段(Comprehension stage)」。這個階段負責解析原始種子技能的目錄結構與 Markdown 文件,建立初始表徵,並產生一份定義任務目標與評估標準的技能輪廓(Skill profile),以此作為後續搜尋的重要先驗知識。
外層 MCTS 搜尋:LLM 驅動的結構探索
切入外層迴圈,系統採用 MCTS(蒙地卡羅樹搜尋,用於決策樹探索的演算法)來導航離散且具組合性質的結構空間。樹狀結構中的每個節點代表一種結構狀態,邊緣則代表可允許的修改動作,例如新增區塊、移除參考資料或重新排序元件。
執行搜尋的過程遵循選擇、擴展、評估與反向傳播四個標準步驟。在「選擇」階段,系統提供上限信賴區間(UCB1)與混合機率兩種策略,後者能在獎勵訊號充滿雜訊時,於廣泛探索與專注高價值節點之間取得平衡。
進入「擴展」階段時,搜尋會完全由 LLM 驅動並分為分析、診斷與提案三個子階段。模型會檢視當前結構與過去的評估回饋,找出效能不佳的根本原因,並提出具體的結構修改動作。修改後的候選結構必須先通過有效性與預算限制檢查,才會交由內層迴圈進行評估。
針對五大微調家族的悲觀評估機制
承接外層提出的結構後,內層迴圈會先透過橋接操作,將現有內容轉移至新結構中。這個步驟的目標是在容納新引進元件的同時,盡可能保留原本可重複使用的指令與材料,產生初步對齊的文本。
執行微調的過程並非採用單一通用流程,而是根據結構變更的類型,分派至對應的五大微調家族(如元資料更新、指令文本修改、腳本生成等)。系統會在選定的家族內執行有限次數的嘗試,並將前一次的輸出作為下一次嘗試的輸入,形成微調軌跡。
考量到下游任務評估固有的隨機性與雜訊,內層迴圈嚴格採用「悲觀評估」標準。系統會計算每一次嘗試相對於基準的 LCB(信賴區間下限,用以評估改進可靠度),只有此數值大於等於零的結果才被視為有效,最後將排名最高的內容封包回傳給外層迴圈更新搜尋統計。
ORQA 測試:效能從 0.906 提升至 0.937
驗證此框架的過程中,研究團隊使用包含 1,513 個實例的開源作業研究問答(ORQA)資料集。此任務要求代理程式必須根據自然語言問題描述,精準推論出數學最佳化模型中的變數、約束條件與目標。
觀察兩種搜尋配置的表現,保守型(配置 A)與探索型(配置 B)在外層搜尋階段皆達到 0.9434 的最高獎勵。但在確認階段中,配置 B 以 0.8857 的平均得分勝出,顯示較寬容的收斂設定與混合機率選擇在處理雜訊時更具優勢。
攤開最終的獨立測試集成績,最初由 AI 生成的種子技能基準得分為 0.90625,而透過框架最佳化的技能則達到 0.9375。檢視勝出技能可以發現,它將原本分散的參考文件整合進單一主要文件中,並新增了專屬分類檢查表,強制規範了代理程式的執行順序,成為推升推理準確度的關鍵。
將代理程式技能視為雙層最佳化問題,不僅能系統化克服語言指令與程式碼混雜的結構限制,更為自動化生成複雜任務技能指引了新路徑。