Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions

Bo Zhao, Kairui Guo, Runnan Du, Haiyang Sun, Pengshan Wang, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

南京大學與快手提出 ATR 代理框架,透過動態拆解編輯指令與空間解耦,讓 Qwen-Edit 在困難測試集中效能提升近 16%。

  • 超過 40% 的圖像編輯失敗源於任務表達不佳,而非生成模型本身的參數容量或生圖能力不足。
  • ATR 框架包含任務分析、路由分發與閉環執行,將單一指令拆解為語義重寫、空間解耦或局部裁剪。
  • 導入 Fallback 退回機制與中間狀態回饋,能避免代理系統陷入無效推理,確保多步執行的成功率。

即使是最先進的圖像編輯模型,在面對超過 40% 的生成失敗案例時,問題往往不在於底層算力不足,而是人類下達指令的方式根本不符合機器的「胃口」。南京大學與快手科技的最新聯合研究指出,透過將單一圖像編輯任務拆解並重新構建為多步驟的操作序列,原本的 Qwen-Image-Edit 模型在 ImgEdit-Hard 困難基準測試上的表現,能從 3.57 分大幅提升至 4.13 分。這項數據證明,改變任務表達方式,比起單純堆疊模型參數,更能有效消除影像修改過程中的空間錯誤與物件錯位。

超過40%編輯失敗的根源:任務表達與模型機制的錯位

指令引導的圖像編輯技術(Instruction-guided image editing)在近年取得巨大進展,使用者只需輸入自然語言就能修改圖片。然而,目前的編輯系統即使在處理看似簡單的任務時,仍頻繁出現令人挫折的錯誤。例如,要求模型修改某個小物件上的數字,如果該物件在畫面中佔比極小、背景雜亂,或者指令對空間位置的描述不夠具體,即便是參數規模龐大的模型也常會直接搞砸整個畫面。

為了找出失敗原因,研究團隊針對 Qwen-Image-Edit(阿里雲開源的指令引導圖像編輯模型)在基準測試中表現最差的 40% 案例進行前導分析。他們發現,這些失敗大多並非源自模型本身的能力上限(model-capacity problem),而是來自於「任務表述錯位」(task formulation mismatch)。現有模型通常隱含著運作前提:目標物必須夠大、空間定位必須清晰、意圖必須明確。當原始的「圖片加指令」組合不符合這些條件時,直接要求模型生成結果,自然會導致局部聚焦失敗或破壞原有圖像結構。

導入ATR框架:由MLLM代理驅動的動態多步操作

基於上述發現,研究團隊提出了一套名為 ATR(Adaptive Task Reformulation,自適應任務重構)的代理推論框架。這套系統的核心概念在於,不去更動底層圖像生成模型的參數,而是將原本難以消化的單一複雜指令,轉換為更符合模型運作邏輯的多步驟序列。整個過程交由一個輕量級的 MLLM(多模態大型語言模型,能同時處理文字與圖像輸入)作為代理人(Agent)在推論階段動態執行。

當系統接收到一張圖片與一段編輯指令時,首先會進行任務輪廓分析(Query Profiling)。MLLM 代理會掃描畫面,釐清修改目標、關鍵限制以及編輯範圍。它會特別注意目標物的相對比例、位置關係以及周遭背景的複雜度。透過建立這份結構化的特徵檔案,系統就能將原本模糊的任務,拆解成決定後續執行策略的關鍵依據,為下一步的路由分發做好準備。

路由三部曲:語義重寫、空間解耦與局部裁剪

根據任務輪廓的特徵,ATR 框架內的路由器會將任務分發到三種不同的執行路線中。第一條路線是 Route A(直接編輯與重寫),適用於不需要複雜空間分離的任務。如果指令已經夠明確,就直接交由生成模型處理;如果指令模糊,MLLM 會先將文字「重寫」成更具體、更符合模型偏好的描述,再進行全圖編輯。

當任務涉及強烈的結構依賴或物件位移時,系統會切換至 Route B(空間解耦)。在此模式下,直接修改往往會導致背景破圖。因此,代理人會先呼叫類似 SAM3(Segment Anything Model 3,用於精準圖像分割的視覺模型)的工具隔離目標物件,估算目標移動位置,將原位置的背景補全(inpaint),最後再將編輯好的物件合成回場景中。對於佔比極小或深埋在雜亂環境的目標,系統則啟動 Route C(局部編輯),先將目標區域裁剪下來,在小範圍內進行高訊噪比的編輯後,再精準貼回原圖。

封閉式執行迴圈與Fallback防呆機制的設計

選擇路由策略只是第一步,ATR 框架的另一大優勢在於採用了依賴路由條件的代理執行(Route-Conditioned Agentic Execution)。這意味著系統並非採取「一次性生成」,而是一個充滿回饋機制的封閉式迴圈。在執行過程中,代理人會持續檢驗中間產生的圖片狀態,判斷合成邊緣是否平滑、修改結果是否符合文字意圖,並決定是否需要額外呼叫修復工具來優化細節。

為了避免這種多步驟推理陷入無限循環或錯誤累積,研究團隊特別設計了有邊界的 Fallback(備用退回)機制。如果在預設的推論步數限制內,系統仍無法達成滿意的編輯結果,任務將會自動退回,改採最安全的全圖單次直接編輯模式。實驗數據證實,加入 Fallback 防呆機制與終端驗證邏輯後,框架的運作穩定度大幅提升,有效平衡了推論精準度與運算成本。

Qwen與Nano Banana在PICA基準測試的量化突破

在著重物理真實性與空間一致性的 PICA 基準測試中,ATR 框架展現了跨模型的強大適應力。掛載該框架後,基礎版 Qwen-Edit 的成功率從 61.43% 爬升至 65.91%;而體積較小的基礎版 Nano Banana 模型,成功率也從 60.73% 提升至 63.45%,其表現甚至直逼運算成本更高的 Nano Banana Pro 專業版模型。在要求極高精準度的 RePlan 基準測試中,Qwen-Edit 的一致性分數更是從極低的 2.39 分暴增至 4.14 分,徹底解決了模型常將修改套用到錯誤物件上的盲點。

消融實驗(Ablation Study)的數據也清晰描繪了效能堆疊的過程:在 ImgEdit-Hard 測試中,加入文字重寫模組讓分數提升至 3.82 分;導入 SAM 空間分割工具後推進至 3.87 分;加入局部裁剪路徑後突破至 4.02 分;最終結合全局上下文感知路由,才達成最佳的 4.16 分。這些數據在在證明,聰明的任務規劃與工具排程,是釋放現有視覺模型潛力的關鍵基礎建設。

未來的 AI 圖像生成系統不只需要更龐大的參數庫,更需要具備代理思維的中介層,將模糊的人類意圖轉譯並拆解為可控的空間操作序列。

補充數據視覺化

基礎模型導入 ATR 框架後於 PICA 測試成功率變化
模型版本原始成功率掛載ATR後成功率
模型版本原始成功率掛載ATR後成功率
模型版本原始成功率掛載ATR後成功率

Abstract

Instruction guided image editing has advanced substantially with recent generative models, yet it still fails to produce reliable results across many seemingly simple cases. We observe that a large portion of these failures stem not from insufficient model capacity, but from poorly formulated editing tasks, such as those involving small targets, implicit spatial relations, or under-specified instructions. In this work, we frame image editing failures as a task formulation problem and propose an adaptive task reformulation framework that improves editing performance without modifying the underlying model. Our key idea is to transform the original image-instruction pair into a sequence of operations that are dynamically determined and executed by a MLLM agent through analysis, routing, reformulation, and feedback-driven refinement. Experiments on multiple benchmarks, including ImgEdit, PICA, and RePlan, across diverse editing backbones such as Qwen Image Edit and Nano Banana, show consistent improvements, with especially large gains on challenging cases. These results suggest that task reformulation is a critical but underexplored factor, and that substantial gains can be achieved by better matching editing tasks to the effective operating regime of existing models.