Beyond Text Prompts: Precise Concept Erasure through Text-Image Collaboration

Jun Li, Lizhi Xiong, Ziqiang Li, Weiwei Jiang, Zhangjie Fu, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

TICoE 框架透過連續凸概念流形與多尺度視覺特徵,在 Stable Diffusion 模型中精準擦除特定概念,同時完美保留形狀相似的安全物件。

  • 建立包含 30 個以上變體的連續凸概念流形,有效阻斷惡意提示詞重新喚醒敏感內容。
  • 採用 1.0、0.75 與 0.5 三種尺度的階層式視覺特徵學習,防止模型誤刪輪廓相似的無關物件。
  • 提出全新的 MCP 評估指標,專門量化生成式 AI 在執行概念擦除後,保留關聯安全物件的能力。

在清除 AI 繪圖模型中的敏感內容時,現有技術面臨一個兩難:僅用文字指令進行擦除,常常會被換句話說的對抗性提示詞輕易破解;而加入圖片輔助擦除,卻往往會產生視覺糾纏,將長得像的無辜物件一併刪除。為了解決這個漏洞,研究團隊提出了 TICoE(文字與影像協同擦除)框架,藉由連續凸概念流形與多尺度特徵融合,在阻擋惡意攻擊的同時,還能完美保留形狀相似的安全物件,為生成式 AI 的內容審查建立了全新標準。

傳統文字與影像輔助擦除面臨的過度刪除挑戰

文字生成影像模型(Text-to-image generative models)如 Stable Diffusion 展現了驚人的創造力,但龐大的訓練資料庫中難免夾帶了暴力、色情或侵權內容。目前的「概念擦除」技術主要依賴調整擴散過程的引導訊號,或是優化注意力機制。然而,單一詞彙或固定提示詞無法涵蓋概念的完整語意。使用者只要改變描述方式,例如不打「槍」,改輸入「未來電漿步槍」,就能輕易繞過防線並重新喚醒被隱藏的危險內容。

為了解決文字涵蓋率不足的問題,近期技術開始嘗試導入參考圖片作為輔助。引入視覺資訊雖然能提高複雜概念的擦除準確度,卻也衍生出「視覺糾纏」的副作用。模型在學習遺忘的過程中,容易將目標物件的形狀、姿勢或背景特徵與無關物件混淆。舉例來說,當系統被要求忘記「槍枝」時,它可能會把外觀結構相似的「相機」也連帶削弱。這種為求安全而過度壓抑模型生成能力的作法,大幅降低了模型的實用性。

TICoE 透過連續凸概念流形阻絕提示詞攻擊

為了解決文字擦除不完全的破口,研究團隊在 TICoE 框架中導入了連續凸概念流形(Continuous Convex Concept Manifold, CCCM)機制。系統不再依賴單一關鍵字,而是利用大型語言模型 GPT-5.0 自動擴充數十種相關描述。以「教堂」為例,系統會同時生成「哥德式教堂」、「古代石造教堂」等語意變體。這些詞彙的特徵向量會透過狄利克雷分佈(Dirichlet distribution)進行權重分配,在語意空間中建構出平滑的連續組合。

這種連續性的幾何結構,確保了目標概念的各種語言表達形式都被封鎖。實驗數據顯示,當提示詞庫的變體數量達到 30 個以上時,概念流形的涵蓋率便會趨於穩定。透過這個機制,TICoE 能夠有效防禦對抗性攻擊,徹底封死使用者利用同義詞或隱諱描述重新喚醒目標概念的可能性。

階層式視覺表徵學習精準剝離相似輪廓物件

在視覺防護層面,TICoE 引入了階層式視覺表徵學習(Hierarchical Visual Representation Learning, HVRL)來消除視覺糾纏。系統會先利用乾淨的擴散模型生成一批目標物件的參考圖片,將其轉入潛在空間(Latent space)後,提取出 1.0、0.75 與 0.5 三種不同縮放比例的特徵序列。這些多尺度的特徵標記接著會被送入 Transformer 編碼器進行空間結構的聯合計算。

對比於依賴單一尺度的傳統做法,這種階層式架構讓模型學會區分「目標物件獨有的特徵」與「環境中共有的特徵」。研究團隊的消融實驗證實,如果只使用單一尺度,模型不僅無法完全清除目標,還會導致生成失真;但若將尺度切割得過碎(例如加入 0.25),又會引發特徵過度平滑的問題。三種尺度的精準配置,讓模型在拔除特定概念時,能夠確保不波及周圍相似但不相關的像素結構。

導入 MCP 評估指標驗證 Stable Diffusion 擦除成效

過去評估概念擦除技術時,業界多半依賴擦除成功率(ASR)或以 COCO 資料集測試整體生成品質,但這些指標無法反映長得像的無關物件是否存活。為此,團隊設計了全新的 MCP(形態與上下文概念保留)指標。在針對 UDA 與 P4D 的對抗性攻擊測試中,TICoE 不僅在抹除效率上擊敗了 ESD、UCE 等主流方法,在 MCP 評估中更證明了當抹除「槍枝」時,它能完美保留生成「相機」的能力。

這套框架展現了極高的通用性與精確度。在過濾 Nudity(裸露)內容的 I2P 資料集測試中,TICoE 將多項敏感分類的殘留觸發率降到了逼近零的極值。系統目前已在 Stable Diffusion 1.4、1.5 與 2.0 版本上驗證成功,甚至具備同時精準抹除「梵谷畫風」、「教堂」與「貓」等多個互不相干概念的能力,為生成模型的內容可控性提供了完整的解決方案。

真正的模型安全防護不只要學會遺忘危險概念,更要懂得在抹除目標時不傷及無辜,文字與影像的多尺度聯集將是次世代內容治理的標配。

Abstract

Text-to-image generative models have achieved impressive fidelity and diversity, but can inadvertently produce unsafe or undesirable content due to implicit biases embedded in large-scale training datasets. Existing concept erasure methods, whether text-only or image-assisted, face trade-offs: textual approaches often fail to fully suppress concepts, while naive image-guided methods risk over-erasing unrelated content. We propose TICoE, a text-image Collaborative Erasing framework that achieves precise and faithful concept removal through a continuous convex concept manifold and hierarchical visual representation learning. TICoE precisely removes target concepts while preserving unrelated semantic and visual content. To objectively assess the quality of erasure, we further introduce a fidelity-oriented evaluation strategy that measures post-erasure usability. Experiments on multiple benchmarks show that TICoE surpasses prior methods in concept removal precision and content fidelity, enabling safer, more controllable text-to-image generation. Our code is available at https://github.com/OpenAscent-L/TICoE.git