Beyond Text Prompts: Precise Concept Erasure through Text-Image Collaboration
TICoE 框架透過連續凸概念流形與多尺度視覺特徵,在 Stable Diffusion 模型中精準擦除特定概念,同時完美保留形狀相似的安全物件。
- 建立包含 30 個以上變體的連續凸概念流形,有效阻斷惡意提示詞重新喚醒敏感內容。
- 採用 1.0、0.75 與 0.5 三種尺度的階層式視覺特徵學習,防止模型誤刪輪廓相似的無關物件。
- 提出全新的 MCP 評估指標,專門量化生成式 AI 在執行概念擦除後,保留關聯安全物件的能力。
在清除 AI 繪圖模型中的敏感內容時,現有技術面臨一個兩難:僅用文字指令進行擦除,常常會被換句話說的對抗性提示詞輕易破解;而加入圖片輔助擦除,卻往往會產生視覺糾纏,將長得像的無辜物件一併刪除。為了解決這個漏洞,研究團隊提出了 TICoE(文字與影像協同擦除)框架,藉由連續凸概念流形與多尺度特徵融合,在阻擋惡意攻擊的同時,還能完美保留形狀相似的安全物件,為生成式 AI 的內容審查建立了全新標準。
傳統文字與影像輔助擦除面臨的過度刪除挑戰
文字生成影像模型(Text-to-image generative models)如 Stable Diffusion 展現了驚人的創造力,但龐大的訓練資料庫中難免夾帶了暴力、色情或侵權內容。目前的「概念擦除」技術主要依賴調整擴散過程的引導訊號,或是優化注意力機制。然而,單一詞彙或固定提示詞無法涵蓋概念的完整語意。使用者只要改變描述方式,例如不打「槍」,改輸入「未來電漿步槍」,就能輕易繞過防線並重新喚醒被隱藏的危險內容。
為了解決文字涵蓋率不足的問題,近期技術開始嘗試導入參考圖片作為輔助。引入視覺資訊雖然能提高複雜概念的擦除準確度,卻也衍生出「視覺糾纏」的副作用。模型在學習遺忘的過程中,容易將目標物件的形狀、姿勢或背景特徵與無關物件混淆。舉例來說,當系統被要求忘記「槍枝」時,它可能會把外觀結構相似的「相機」也連帶削弱。這種為求安全而過度壓抑模型生成能力的作法,大幅降低了模型的實用性。
TICoE 透過連續凸概念流形阻絕提示詞攻擊
為了解決文字擦除不完全的破口,研究團隊在 TICoE 框架中導入了連續凸概念流形(Continuous Convex Concept Manifold, CCCM)機制。系統不再依賴單一關鍵字,而是利用大型語言模型 GPT-5.0 自動擴充數十種相關描述。以「教堂」為例,系統會同時生成「哥德式教堂」、「古代石造教堂」等語意變體。這些詞彙的特徵向量會透過狄利克雷分佈(Dirichlet distribution)進行權重分配,在語意空間中建構出平滑的連續組合。
這種連續性的幾何結構,確保了目標概念的各種語言表達形式都被封鎖。實驗數據顯示,當提示詞庫的變體數量達到 30 個以上時,概念流形的涵蓋率便會趨於穩定。透過這個機制,TICoE 能夠有效防禦對抗性攻擊,徹底封死使用者利用同義詞或隱諱描述重新喚醒目標概念的可能性。
階層式視覺表徵學習精準剝離相似輪廓物件
在視覺防護層面,TICoE 引入了階層式視覺表徵學習(Hierarchical Visual Representation Learning, HVRL)來消除視覺糾纏。系統會先利用乾淨的擴散模型生成一批目標物件的參考圖片,將其轉入潛在空間(Latent space)後,提取出 1.0、0.75 與 0.5 三種不同縮放比例的特徵序列。這些多尺度的特徵標記接著會被送入 Transformer 編碼器進行空間結構的聯合計算。
對比於依賴單一尺度的傳統做法,這種階層式架構讓模型學會區分「目標物件獨有的特徵」與「環境中共有的特徵」。研究團隊的消融實驗證實,如果只使用單一尺度,模型不僅無法完全清除目標,還會導致生成失真;但若將尺度切割得過碎(例如加入 0.25),又會引發特徵過度平滑的問題。三種尺度的精準配置,讓模型在拔除特定概念時,能夠確保不波及周圍相似但不相關的像素結構。
導入 MCP 評估指標驗證 Stable Diffusion 擦除成效
過去評估概念擦除技術時,業界多半依賴擦除成功率(ASR)或以 COCO 資料集測試整體生成品質,但這些指標無法反映長得像的無關物件是否存活。為此,團隊設計了全新的 MCP(形態與上下文概念保留)指標。在針對 UDA 與 P4D 的對抗性攻擊測試中,TICoE 不僅在抹除效率上擊敗了 ESD、UCE 等主流方法,在 MCP 評估中更證明了當抹除「槍枝」時,它能完美保留生成「相機」的能力。
這套框架展現了極高的通用性與精確度。在過濾 Nudity(裸露)內容的 I2P 資料集測試中,TICoE 將多項敏感分類的殘留觸發率降到了逼近零的極值。系統目前已在 Stable Diffusion 1.4、1.5 與 2.0 版本上驗證成功,甚至具備同時精準抹除「梵谷畫風」、「教堂」與「貓」等多個互不相干概念的能力,為生成模型的內容可控性提供了完整的解決方案。
真正的模型安全防護不只要學會遺忘危險概念,更要懂得在抹除目標時不傷及無辜,文字與影像的多尺度聯集將是次世代內容治理的標配。