From Competition to Coopetition: Coopetitive Training-Free Image Editing Based on Text Guidance

Jinhao Shen, Haoqian Du, Xulu Zhang, Xiao-Yong Wei, Qing Li

View Original ↗
AI 導讀 technology AI 重要性 4/5

CoEdit 以時空競合策略打破注意力零和博弈,創下 30.69 高 PSNR,全面刷新圖像編輯極限。

  • 引入雙重熵注意力操作,量化分支定向熵以解決空間語義衝突。
  • 導入熵潛在細化機制,利用跨步發散消除時間維度的累積誤差。
  • 提出 FCES 綜合指標,並於七千筆人工盲測中贏得最高主觀偏好。

傳統的免訓練圖像編輯模型在處理背景與編輯區域時,往往陷入零和博弈的競爭狀態。最新發表在 arXiv 的研究提出名為 CoEdit 的全新框架,透過「競合(Coopetition)」策略打破此僵局。在 PIEBench 測試中,CoEdit 不僅在重建設定下創下 30.69 的高 PSNR 分數,更在包含 7,000 筆人工標註的盲測中獲得全面勝出。該研究同步提出全新的 FCES 評估指標,精準量化了語義編輯與背景保真度之間的平衡。

免訓練圖像編輯的零和博弈與注意力機制衝突

生成式 AI 的進步讓文本引導圖像編輯成為現代多媒體內容創作的核心能力,其中免訓練(Training-free)方法因為無需針對特定任務重新微調模型而備受青睞。這類技術主要依賴 Stable Diffusion 架構內的注意力控制機制。主流方法如 Prompt-to-Prompt(P2P)與 PnP(Plug-and-Play),通常將生成流程分為兩個獨立分支:一個負責還原原圖的「重建分支」,另一個負責注入新目標語義的「編輯分支」。

設計上的根本缺陷在於,現有框架本質上受到競爭策略(Competitive strategy)的限制。編輯與重建分支在去噪(Denoising)過程中各自為政,貪婪地追求與目標提示詞(Target prompt)或來源提示詞(Source prompt)的最大對齊。這種缺乏橫向協調的對抗性策略,不可避免地引發語義衝突與不可預測的生成結果。

視覺上最常見的失敗案例分為兩種極端表現。當編輯分支「勝出」時,背景區域會遭到不必要的竄改,且目標物件(例如將貓替換成老虎時)會失去原本的結構完整性。反之,若重建分支佔據主導權,編輯後的圖像會強烈保留原始主體的特徵,導致語義修改完全失效。這些缺陷促使研究人員思考:是否能建立一種讓編輯與重建相互合作、互利共贏的機制?

引入雙重熵注意力操作的 CoEdit 空間競合

為解決上述分支打架的問題,研究團隊提出 CoEdit(Coopetitive Training-Free Image Editing)框架。該框架將純粹的競爭轉化為「競合(Coopetition)」協商,鼓勵兩個分支在注意力分配上進行結構化競爭,同時透過熵(Entropy)引導的合作機制,跨越空間與時間維度共同劃分語義範圍。

空間層面的核心技術是雙重熵注意力操作(Dual-Entropy Attention Manipulation)。如果單純讓兩個分支進行像素級競爭,雙方都會試圖爭奪重疊區域的語義所有權,導致注意力焦點不一致。因此,CoEdit 首先利用定向差分推導出乾淨的背景注意力圖,接著計算編輯方向與重建方向的交叉熵,藉此量化其注意力分配的連貫性。

此機制進一步將注意力控制重新表述為一個和諧最大化問題(Harmony-maximization problem)。演算法透過累積分布函數估算具有空間感知的掩碼,來決定哪些區域可編輯、哪些區域該保留。消融實驗數據顯示,採用預設的 L2 範數能達到最佳的競合平衡;若改用 L1 範數會犧牲編輯對齊度,而改用 L∞ 範數則會導致重建品質崩潰,使得 PSNR 分數暴跌 24.39%

克服時間維度失真的熵潛在細化與跨步發散

空間協商雖然能在單一時間步長內達成局部的編輯平衡,但單靠空間維度不足以確保長期的生成一致性。在去噪軌跡的早期階段,由於潛在表示(Latent representations,即模型內部的低維特徵空間)接近隨機雜訊,容易產生僵硬且錯誤的編輯邊界。隨著生成過程推進,這些不可預測的空間交互作用會逐漸累積,最終導致可編輯區域的結構偏移與紋理崩潰。

針對時間維度的挑戰,CoEdit 導入了熵潛在細化(Entropic Latent Refinement)機制。該機制計算跨步熵發散(Cross-step entropy divergence),用來捕捉編輯區域與重建區域之間隨時間推移的語義錯位。這些時間差異信號被用來正規化預測雜訊,作為調節結構演化的協調信號。

聯合優化結構與紋理的一致性,確保了整個去噪軌跡中的語義轉換連貫性。研究人員透過在 PIEBench 上比對預測編輯掩碼與真實標註掩碼的變化,證實 CoEdit 在採樣過程中能逐步且動態地提高分割精準度。這種從局部空間延伸到全局時間的雙向協調,有效抑制了累積編輯誤差,避免了傳統動態閾值在後期失效的問題。

整合 7000 筆人工盲測與 FCES 綜合評估指標

評估圖像編輯演算法時,傳統指標往往難以同時捕捉重建區域的保真度(Fidelity)與編輯區域的多樣性。為了解決這個衡量盲區並考量圖像中編輯與未編輯區域的空間比例,團隊設計出全新的綜合評估指標 FCES(Fidelity-Constrained Editing Score)。該指標融合了評估語義對齊的區域與全圖 CLIP 分數(CS_r、CS_i),以及衡量背景保真度的 PSNRSSIM,並以 40dB 作為視覺無損的基準進行標準化。

實驗採用了包含超過 700 個實例的 PIEBench 以及 PIEBench++ 大型基準測試集,並透過無分類器引導比例(CFG scale)設定了平衡、編輯導向與重建導向三種操作模式。在與 PnP、MasaCtrl、DDCM 及最新的 PostEdit、h-Edit 等先進方法的對比中,CoEdit 在要求嚴苛的重建設定下達到了 30.69 的最高 PSNR 表現,並在編輯導向設定中取得最高 CLIP 相似度。

量化數據之外的真實人類偏好同樣支持這項技術的突破。團隊收集了 10 位參與者、共計 7,000 筆的人工標註盲測,針對圖像保真度、編輯品質與整體評分進行五分制(Likert scale)評級。盲測結果確認,CoEdit 不僅在各項客觀硬指標中展現全面優勢,也實質改善了終端用戶的主觀視覺體驗。

將生成模型的注意力機制從零和競爭轉向時空競合,不僅解決了背景崩潰痛點,更為未來的免訓練圖像編輯立下全新的 FCES 評估標準。

Abstract

Text-guided image editing, a pivotal task in modern multimedia content creation, has seen remarkable progress with training-free methods that eliminate the need for additional optimization. Despite recent progress, existing methods are typically constrained by a competitive paradigm in which the editing and reconstruction branches are independently driven by their respective objectives to maximize alignment with target and source prompts. The adversarial strategy causes semantic conflicts and unpredictable outcomes due to the lack of coordination between branches. To overcome these issues, we propose Coopetitive Training-Free Image Editing (CoEdit), a novel zero-shot framework that transforms attention control from competition to coopetitive negotiation, achieving editing harmony across spatial and temporal dimensions. Spatially, CoEdit introduces Dual-Entropy Attention Manipulation, which quantifies directional entropic interactions between branches to reformulate attention control as a harmony-maximization problem, eventually improving the localization of editable and preservable regions. Temporally, we present Entropic Latent Refinement mechanism to dynamically adjust latent representations over time, minimizing accumulated editing errors and ensuring consistent semantic transitions throughout the denoising trajectory. Additionally, we propose the Fidelity-Constrained Editing Score, a composite metric that jointly evaluates semantic editing and background fidelity. Extensive experiments on standard benchmarks demonstrate that CoEdit achieves superior performance in both editing quality and structural preservation, enhancing multimedia information utilization by enabling more effective interaction between visual and textual modalities. The code will be available at https://github.com/JinhaoShen/CoEdit.