CiPO 框架結合反事實推理與動態疊代，精準清除大模型思維鏈的敏感資訊。

AI 導讀 technology AI 重要性 4/5

傳統遺忘技術無法處理大型推理模型長思維鏈中的敏感資訊，強制抹除常導致推理能力崩潰。
CiPO 讓模型自行生成符合語氣的反事實推理路徑作為正面樣本，避免外部模型造成的數據污染。
透過動態採樣與反覆疊代偏好最佳化，模型能即時修正資訊外洩，在多項測試中維持極高通用效能。

當語言模型進化為具備長思維鏈的大型推理模型時，機器的知識遺忘技術面臨了全新的困境。根據香港科技大學與香港中文大學聯合發表的研究，現有的模型遺忘技術若非無法徹底清除隱藏在數百字推理步驟中的敏感資訊，就是會導致模型在 GSM8K 等數學推理基準測試上的表現大幅暴跌。為解決此問題，研究團隊開發了 CiPO 框架，透過生成反事實推理路徑並進行反覆疊代偏好最佳化，成功在保留模型核心推理能力的同時，將目標知識的提取成功率降至接近零。

傳統語言模型遺忘技術在長思維鏈機制的失效

大型語言模型（LLMs）在處理複雜任務時，逐漸轉向依賴明確的中間思考過程，這類被稱為大型推理模型（LRMs）的新架構透過產生長思維鏈（Chain-of-Thought, CoT）來提升解答品質。然而，這段詳盡的內部推演軌跡卻成為資料外洩的全新破口。即使最終生成的答案經過安全過濾，模型在思考過程中依然可能直接調用並輸出受版權保護或涉及隱私的訓練資料。傳統的遺忘方法如梯度上升（GA）或直接偏好最佳化（DPO）主要針對最終輸出結果進行干預，面對這種多步驟的邏輯路徑顯得無能為力。如果強行將這些方法套用在具備思維鏈的模型上，往往無法徹底抹除痕跡，甚至會破壞既有的邏輯結構。

拒絕回答與表徵干擾策略衍生的隱私與效能副作用

針對具備思維鏈的模型，業界先前的解決方案主要分為兩種，但各自帶有嚴重的副作用。第一種策略是訓練模型在遇到敏感問題時，經過一段看似合理的思考後給出「我不知道」這類制式化拒絕回應。這種粗糙的手段不僅降低了模型的實用性，過度一致的拒絕模式反而會被攻擊者利用，透過成員推論攻擊來反向猜測哪些資料被刻意隱藏。另一種作法則是從內部表徵下手，例如 R2MU（感知推理表徵誤導遺忘）會強制將涉及敏感知識的神經元隱藏狀態映射為隨機向量。這種粗暴壓制內部運算的手段嚴重損害了模型的可解釋性與推理品質，常導致模型在處理不相關的相近提示詞時，出現信心崩潰或產生毫無邏輯的亂碼。

從因果視角出發為模型建構反事實推理路徑

為突破現有技術的瓶頸，研究團隊將模型遺忘重新定義為針對思維鏈的標靶干預問題，並從因果圖視角切入，切斷敏感知識與最終輸出之間的因果連結。CiPO 框架的核心，在於不採用破壞性壓制，而是給予模型一條具建設性的反事實推理路徑。在實際運作上，系統會指示目標模型本身去建構一個邏輯自洽、但不包含應被遺忘知識的替代答案，並往回推導出對應的思考步驟。這種由模型自產自銷反事實樣本的機制，確保了新生成的推演軌跡在語氣與用詞上與模型原生風格保持高度一致，有效避免了引入外部教師模型可能帶來的數據污染與分佈偏移問題。

透過反覆疊代偏好演算法實現思維鏈動態對齊

取得高品質的反事實推理路徑後，如何引導模型平順地轉移行為模式是下一個難關。如果僅使用靜態數據進行一次性的偏好對齊，模型容易在面對未見過的提示詞組合時再度展露潛藏的記憶。CiPO 採用了反覆疊代的線上偏好最佳化機制。在每一輪訓練中，系統會即時讓模型針對需要遺忘的提示詞進行作答，將這些帶有潛在洩漏風險的即時產出視為不被偏好的樣本，並將反事實路徑設為被偏好的樣本。搭配 SimPO（簡單偏好最佳化，一種基於長度標準化且不需參考模型的對齊演算法）與負對數似然損失（NLL）進行訓練，模型能動態修正持續浮現的新型態資訊外洩，使最佳化過程更加穩定。

在真實基準測試兼顧高遺忘率與模型通用效能

研究團隊在合成的 R-TOFU 數據集與包含真實世界名人隱私的 RETURN 基準測試中，全面驗證了 CiPO 的效能。實驗以 DeepSeek-R1-Distill-Llama-8B 等主流架構作為目標模型，結果顯示 CiPO 在答案層級遺忘率（AFE）與思維鏈層級遺忘率（CFE）均達到頂尖水準。更重要的是，相較於梯度上升法導致效能崩壞、或是拒絕回答策略在保留集上過度觸發，CiPO 在 GSM8K（數學推理）與 MMLU（大規模多任務語言理解）等關鍵通用能力測試中，依然維持著與未修改前極度相近的模型實用性。消融實驗亦證實，若移除動態疊代機制或初始的預熱微調，模型的遺忘效果與推理穩定度皆會顯著下滑，這凸顯了整個框架中各環節設計的必要性。

透過建構反事實推理並進行動態偏好疊代，大型推理模型能在不損害既有邏輯推演能力的前提下，精準拔除隱藏於思維鏈深處的敏感資訊。

Abstract

Machine unlearning has gained increasing attention in recent years, as a promising technique to selectively remove unwanted privacy or copyrighted information from Large Language Models that are trained on a massive scale of human data. However, the emergence of Large Reasoning Models (LRMs), which emphasize long chain-of-thought (CoT) reasoning to address complex questions, presents a dilemma to unlearning: existing methods either struggle to completely eliminate undesired knowledge from the CoT traces or degrade the reasoning performances due to the interference with the reasoning process. To this end, we introduce Counterfactual Unlearning through iterative Preference Optimization (CiPO), a novel framework that redefines unlearning as the targeted intervention of the CoT reasoning in LRMs. More specifically, given a desired unlearning target answer, CiPO instructs LRMs to generate a logically valid counterfactual reasoning trace for preference tuning. As the LRM adjusts to the counterfactual trace, CiPO iteratively updates the preference learning data to increase the discrepancy from the original model. This iterative loop ensures both desirable unlearning and smooth optimization, effectively mitigating the dilemma. Experiments on challenging benchmarks demonstrate that CiPO excels at unlearning, completely removing knowledge from both the intermediate CoT steps and the final answer, while preserving the reasoning abilities of LRMs.

CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization

傳統語言模型遺忘技術在長思維鏈機制的失效

拒絕回答與表徵干擾策略衍生的隱私與效能副作用

從因果視角出發為模型建構反事實推理路徑

透過反覆疊代偏好演算法實現思維鏈動態對齊

在真實基準測試兼顧高遺忘率與模型通用效能

Abstract

🔗 相關推薦

ExoNet 模型透過融合光變曲線與恆星參數，在兩小時內完成訓練，成功從 TESS 數據揪出高達 99.64% 信心度的類地行星目標。

HQRN 結合 10 層量子殘差塊，不僅可繼承經典權重，更成功突破對抗性量子糾纏分類。

P3T 僅以 2M 參數在 3D 分類達 94% 準確率，成功突破大模型的跨域泛化瓶頸。