Google Cloud AI Research Introduces ReasoningBank: A Memory Framework that Distills Reasoning Strategies from Agent Successes and Failures

Asif Razzaq

View Original ↗
AI 導讀 technology AI 重要性 4/5

AI agent 同時向成功與失敗學習:ReasoningBank 讓 WebArena 成功率提升 8.3 個百分點

  • ReasoningBank 同時從成功和失敗軌跡萃取結構化推理策略,修補 Synapse、AWM 只學成功案例的根本盲點
  • 記憶檢索 k=1 最佳:多取反而從 49.7% 跌至 44.4%,一個高相關記憶勝過多個低相關記憶的堆疊
  • 結合 MaTTS 的 WebArena 成功率達 56.3%(vs 無記憶 46.7%),記憶本身在測試時會自我涌現進化,不需更新模型權重

多數 AI agent 每次任務都像從零開始——失敗的教訓瞬間蒸發,相同的錯誤一再重演。Google Cloud AI 聯合 UIUC(伊利諾大學香檳分校)、Yale 推出 ReasoningBank,在 WebArena、Mind2Web、SWE-Bench 三個主流 benchmark 上均超越所有現有基準,成功率最高提升 +8.3 個百分點,每任務平均少走 2.8 步——核心突破在於它同時從成功與失敗兩類軌跡中萃取可複用的推理策略,而非只記錄操作日誌。

AI agent 的失憶症:Synapse 與 AWM 的設計盲點

目前最常見的兩種 agent 記憶架構各有根本缺陷。Synapse 使用軌跡記憶(trajectory memory),直接把 agent 執行過的每一個點擊、滾動、輸入動作完整存下來;AWM(Agent Workflow Memory)進一步從中抽取可複用的步驟流程,但只處理成功的執行記錄。

這兩套方案都面臨系統性盲點。原始軌跡噪音多、長度過長,難以直接應用於新任務;而「只挖成功案例」的設計,意味著 agent 失敗時所包含的豐富學習信號——到底哪裡出錯、為何出錯、怎樣才能避免——被整個丟棄。偏偏在複雜任務情境下,AI agent 的失敗率相當高,只看成功等同於系統性忽略一大半的學習機會。ReasoningBank 的設計正是針對這兩個盲點:以結構化策略取代原始動作日誌,同時把失敗轉化為未來任務的防範知識。

三階段閉環:從行為軌跡到推理策略的萃取過程

ReasoningBank 以三個階段圍繞每次完成的任務形成閉環:記憶檢索(memory retrieval)、記憶萃取(memory extraction)、記憶整合(memory consolidation)

任務開始前,系統透過嵌入相似度搜索(embedding-based similarity search,可理解為「語意近似查找」)從記憶庫取出最相關的項目,直接注入 agent 的系統提示詞作為背景知識。任務完成後,Memory Extractor(記憶萃取器,使用與 agent 相同的底層 LLM)分析完整軌跡,壓縮成三欄式結構化記憶:標題(策略名稱)、描述(一句話摘要)、內容(1-3 句蒸餾後的推理步驟或操作洞見)。成功軌跡貢獻驗證過的策略,失敗軌跡則貢獻反例警示與防範指南。

成敗判定由 LLM-as-a-Judge(以 LLM 自身作為評判者)負責:給定原始需求、完整執行軌跡、最終頁面狀態,輸出二元「成功 / 失敗」判斷。消融實驗(ablation study,控制單一變數的對比實驗)顯示,就算 judge 準確率降至約 70%,整體表現仍保持穩健,說明這套設計對評判誤差有相當的容錯能力。新記憶以 JSON 格式存入記憶庫,預先計算嵌入向量以支援快速餘弦相似度搜索,完成閉環。

k=1 的反直覺設計:記憶數量越多反而效果越差

消融實驗揭示出一個反直覺結果:每次任務只取 k=1 個記憶項目時成功率最高,達 49.7%;隨著 k 增加,性能呈下降趨勢,k=4 時跌至 44.4%

這組數字背後有清楚的邏輯:注入過多記憶項目不只是無益,而是主動引入噪音,分散 agent 的決策焦點。記憶系統的設計核心不在於「記得越多越好」,而在於「取出最相關的那一個」。系統的嵌入相似度搜索只要做到精準定位,單一高相關性策略的引導效果,就能勝過多筆低相關性資訊的疊加。這也反映了語言模型在長上下文中注意力分散的已知特性——提示詞裡的信息越多,模型越難聚焦在關鍵引導上。

記憶檢索數量 k 值對成功率的影響(WebArena)

k=1 時成功率最高,多取記憶反而引入噪音導致性能下滑

MaTTS 架構與三個 benchmark 的量化表現

研究團隊在 ReasoningBank 之上提出 MaTTS(memory-aware test-time scaling,記憶感知測試時計算擴展),把測試時生成多條軌跡的計算資源,轉化為強化記憶品質的材料,形成正向循環:更好的記憶引導 agent 朝更有希望的路徑探索,更豐富的探索又鍛造更強的記憶。

MaTTS 有兩種實作:平行擴展(parallel scaling) 為同一任務獨立生成 k 條軌跡,透過自我對比(self-contrast)提取高品質記憶;序列擴展(sequential scaling) 對單一軌跡進行迭代精煉(self-refinement),捕捉修正過程中的中間洞見。在 WebArena-Shopping 上,平行擴展 k=5 達 55.1% 成功率,略優於序列的 54.5%——序列模式在達到決定性結果後快速飽和,而平行模式持續提供多樣的對比素材。

量化結果方面:以 Gemini-2.5-Flash 為骨幹,ReasoningBank 在 WebArena 上將整體成功率從 40.5% 推至 48.8%(+8.3pp),每任務平均減少 1.4 步,Shopping 子集的成功任務更少了 2.1 步(相對減少 26.9%)。在 SWE-Bench-Verified(500 個軟體工程 benchmark 案例)中,Gemini-2.5-Flash 的每任務步驟從 30.3 降至 27.5(-2.8 步),解決率從 34.2% 升至 38.8%;Gemini-2.5-Pro 則達到 57.4%(對比基準 54.0%)。加入 MaTTS(k=5,Gemini-2.5-Pro)後,WebArena 整體成功率進一步達 56.3%,對比無記憶基準的 46.7%,每任務步驟從 8.8 降至 7.1。在 Mind2Web 的跨任務、跨網站、跨領域三個評估維度上,ReasoningBank 均超越基準,其中跨領域設定進步幅度最大——也是 AWM 反而劣於無記憶基準的那個情境。

ReasoningBank 跨 benchmark 量化結果對比
Benchmark骨幹模型無記憶基準ReasoningBank步驟節省
WebArenaGemini-2.5-Flash40.5%48.8% (+8.3pp)-1.4 步/任務
WebArena + MaTTSGemini-2.5-Pro46.7%56.3% (+9.6pp)-1.7 步(8.8→7.1)
SWE-Bench-VerifiedGemini-2.5-Pro54.0%57.4% (+3.4pp)-1.3 步/任務
SWE-Bench-VerifiedGemini-2.5-Flash34.2%38.8% (+4.6pp)-2.8 步(30.3→27.5)

資料來源:ReasoningBank 論文(Google Cloud AI / UIUC / Yale)

記憶從清單自我進化為系統策略的涌現現象

論文記錄了一個能說明 ReasoningBank 動態特性的案例:記憶並非靜止存在,而是隨 agent 的累積經驗持續演進。

初期,針對「使用者特定資訊導航」策略的記憶項目是簡單程序清單:「主動尋找並點擊『下一頁』或『載入更多』連結。」隨著任務數量增加,同樣的記憶條目演進成自我反思式的適應策略,最終發展為:「定期將當前視圖與任務需求交叉對比;若當前資料與預期不符,重新評估可用的篩選器與備用頁面」這樣的組合式系統策略。

作者將此描述為涌現行為(emergent behavior),類似強化學習(reinforcement learning,透過回饋信號更新模型行為的訓練機制)的學習動態——卻完全發生在測試階段,不涉及任何模型權重更新。這代表 ReasoningBank 讓 agent 在不修改模型本體的前提下,透過部署階段的經驗積累持續升級決策策略,是目前 agent 記憶研究中少數有完整機制解釋的涌現案例。

AI agent 的下一個演進不是更大的模型——而是能從每一次失敗萃取教訓、每次任務後都比上次更聰明的記憶機制。

Abstract

A new memory framework from Google Cloud AI Research and UIUC gives LLM agents the ability to distill generalizable reasoning strategies from both successful and failed experiences — and combines that with test-time scaling to create agents that genuinely improve over time. The post Google Cloud AI Research Introduces ReasoningBank: A Memory Framework that Distills Reasoning Strategies from Agent Successes and Failures appeared first on MarkTechPost.