Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions
南京大學與快手提出 ATR 代理框架,透過動態拆解編輯指令與空間解耦,讓 Qwen-Edit 在困難測試集中效能提升近 16%。
- 超過 40% 的圖像編輯失敗源於任務表達不佳,而非生成模型本身的參數容量或生圖能力不足。
- ATR 框架包含任務分析、路由分發與閉環執行,將單一指令拆解為語義重寫、空間解耦或局部裁剪。
- 導入 Fallback 退回機制與中間狀態回饋,能避免代理系統陷入無效推理,確保多步執行的成功率。
即使是最先進的圖像編輯模型,在面對超過 40% 的生成失敗案例時,問題往往不在於底層算力不足,而是人類下達指令的方式根本不符合機器的「胃口」。南京大學與快手科技的最新聯合研究指出,透過將單一圖像編輯任務拆解並重新構建為多步驟的操作序列,原本的 Qwen-Image-Edit 模型在 ImgEdit-Hard 困難基準測試上的表現,能從 3.57 分大幅提升至 4.13 分。這項數據證明,改變任務表達方式,比起單純堆疊模型參數,更能有效消除影像修改過程中的空間錯誤與物件錯位。
超過40%編輯失敗的根源:任務表達與模型機制的錯位
指令引導的圖像編輯技術(Instruction-guided image editing)在近年取得巨大進展,使用者只需輸入自然語言就能修改圖片。然而,目前的編輯系統即使在處理看似簡單的任務時,仍頻繁出現令人挫折的錯誤。例如,要求模型修改某個小物件上的數字,如果該物件在畫面中佔比極小、背景雜亂,或者指令對空間位置的描述不夠具體,即便是參數規模龐大的模型也常會直接搞砸整個畫面。
為了找出失敗原因,研究團隊針對 Qwen-Image-Edit(阿里雲開源的指令引導圖像編輯模型)在基準測試中表現最差的 40% 案例進行前導分析。他們發現,這些失敗大多並非源自模型本身的能力上限(model-capacity problem),而是來自於「任務表述錯位」(task formulation mismatch)。現有模型通常隱含著運作前提:目標物必須夠大、空間定位必須清晰、意圖必須明確。當原始的「圖片加指令」組合不符合這些條件時,直接要求模型生成結果,自然會導致局部聚焦失敗或破壞原有圖像結構。
導入ATR框架:由MLLM代理驅動的動態多步操作
基於上述發現,研究團隊提出了一套名為 ATR(Adaptive Task Reformulation,自適應任務重構)的代理推論框架。這套系統的核心概念在於,不去更動底層圖像生成模型的參數,而是將原本難以消化的單一複雜指令,轉換為更符合模型運作邏輯的多步驟序列。整個過程交由一個輕量級的 MLLM(多模態大型語言模型,能同時處理文字與圖像輸入)作為代理人(Agent)在推論階段動態執行。
當系統接收到一張圖片與一段編輯指令時,首先會進行任務輪廓分析(Query Profiling)。MLLM 代理會掃描畫面,釐清修改目標、關鍵限制以及編輯範圍。它會特別注意目標物的相對比例、位置關係以及周遭背景的複雜度。透過建立這份結構化的特徵檔案,系統就能將原本模糊的任務,拆解成決定後續執行策略的關鍵依據,為下一步的路由分發做好準備。
路由三部曲:語義重寫、空間解耦與局部裁剪
根據任務輪廓的特徵,ATR 框架內的路由器會將任務分發到三種不同的執行路線中。第一條路線是 Route A(直接編輯與重寫),適用於不需要複雜空間分離的任務。如果指令已經夠明確,就直接交由生成模型處理;如果指令模糊,MLLM 會先將文字「重寫」成更具體、更符合模型偏好的描述,再進行全圖編輯。
當任務涉及強烈的結構依賴或物件位移時,系統會切換至 Route B(空間解耦)。在此模式下,直接修改往往會導致背景破圖。因此,代理人會先呼叫類似 SAM3(Segment Anything Model 3,用於精準圖像分割的視覺模型)的工具隔離目標物件,估算目標移動位置,將原位置的背景補全(inpaint),最後再將編輯好的物件合成回場景中。對於佔比極小或深埋在雜亂環境的目標,系統則啟動 Route C(局部編輯),先將目標區域裁剪下來,在小範圍內進行高訊噪比的編輯後,再精準貼回原圖。
封閉式執行迴圈與Fallback防呆機制的設計
選擇路由策略只是第一步,ATR 框架的另一大優勢在於採用了依賴路由條件的代理執行(Route-Conditioned Agentic Execution)。這意味著系統並非採取「一次性生成」,而是一個充滿回饋機制的封閉式迴圈。在執行過程中,代理人會持續檢驗中間產生的圖片狀態,判斷合成邊緣是否平滑、修改結果是否符合文字意圖,並決定是否需要額外呼叫修復工具來優化細節。
為了避免這種多步驟推理陷入無限循環或錯誤累積,研究團隊特別設計了有邊界的 Fallback(備用退回)機制。如果在預設的推論步數限制內,系統仍無法達成滿意的編輯結果,任務將會自動退回,改採最安全的全圖單次直接編輯模式。實驗數據證實,加入 Fallback 防呆機制與終端驗證邏輯後,框架的運作穩定度大幅提升,有效平衡了推論精準度與運算成本。
Qwen與Nano Banana在PICA基準測試的量化突破
在著重物理真實性與空間一致性的 PICA 基準測試中,ATR 框架展現了跨模型的強大適應力。掛載該框架後,基礎版 Qwen-Edit 的成功率從 61.43% 爬升至 65.91%;而體積較小的基礎版 Nano Banana 模型,成功率也從 60.73% 提升至 63.45%,其表現甚至直逼運算成本更高的 Nano Banana Pro 專業版模型。在要求極高精準度的 RePlan 基準測試中,Qwen-Edit 的一致性分數更是從極低的 2.39 分暴增至 4.14 分,徹底解決了模型常將修改套用到錯誤物件上的盲點。
消融實驗(Ablation Study)的數據也清晰描繪了效能堆疊的過程:在 ImgEdit-Hard 測試中,加入文字重寫模組讓分數提升至 3.82 分;導入 SAM 空間分割工具後推進至 3.87 分;加入局部裁剪路徑後突破至 4.02 分;最終結合全局上下文感知路由,才達成最佳的 4.16 分。這些數據在在證明,聰明的任務規劃與工具排程,是釋放現有視覺模型潛力的關鍵基礎建設。
未來的 AI 圖像生成系統不只需要更龐大的參數庫,更需要具備代理思維的中介層,將模糊的人類意圖轉譯並拆解為可控的空間操作序列。
補充數據視覺化
| 模型版本 | 原始成功率 | 掛載ATR後成功率 |
|---|---|---|
| 模型版本 | 原始成功率 | 掛載ATR後成功率 |
| 模型版本 | 原始成功率 | 掛載ATR後成功率 |