Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification

Shuang Li, Jiaxu Leng, Changjiang Kuang, Mingpi Tan, Yu Yuan, et al.

View Original ↗
AI 導讀 technology AI 重要性 3/5

CBA利用因果干預消除2大偽相關,解決跨模態行人重識別的特徵粒度失衡。

  • 光譜與時序特徵會干擾通用模型,導致跨模態重識別產生分群失衡。
  • CIW結合模態微擾與時間重組,成功阻斷光譜與時序等偽相關干擾。
  • PGUR利用可見光原型作基準,重構紅外線特徵達成跨模態對齊。

在全天候監控場景中,影片級可見光與紅外線行人重識別(VVI-ReID)技術扮演著關鍵角色。然而,過往依賴昂貴跨模態標註的受監督學習難以規模化。當研究人員嘗試將通用預訓練編碼器直接套用於無監督設定(USL-VVI-ReID)時,發現模型會被光譜與運動軌跡等非因果因素誤導,導致可見光與紅外線特徵出現嚴重的分群粒度失衡。重慶郵電大學研究團隊為此提出 CBA(Causal Bootstrapped Alignment)框架,透過因果干預成功在 HITSZ-VCMBUPTCampus 兩大指標資料集上,確立了無監督學習的新效能基準。

通用預訓練模型在影片重識別的粒度失衡挑戰

現行基於影像的無監督跨模態重識別(USL-VI-ReID)多半仰賴 CLIP(對比語言影像預訓練模型)等通用編碼器來提取特徵,並透過分群演算法產生偽標籤。不過,一旦將此流程直接延伸至影片軌跡資料,任務無關的編碼器往往會無差別地吸收所有預測訊號。這種機制在跨模態影片中會引發兩大嵌入空間缺陷,使得特徵無法準確反映行人身分。

首先是嚴重的同模態身分混淆,模型無法有效分離同模態內的不同個體,跨模態差異反而成為主導特徵分布的關鍵,導致模態間的距離遠大於類別間的距離。其次,可見光特徵通常能形成數量龐大且精細的叢集,而紅外線特徵卻因為辨識線索較少,呈現出數量極少且粗糙的欠分群狀態。這種本質上的粒度不對稱,會在後續的跨模態匹配時衍生出不穩定的一對多對應關係。

阻斷光譜與運動軌跡干擾的 CIW 因果干預機制

為了克服通用編碼器的盲點,研究團隊導入 SCM(結構因果模型)概念,分析觀測到的影片輸入中潛藏著哪些干擾。模型不僅包含本質上的身分因果因子,還夾雜了模態專屬外觀(如紅外線熱紋理)以及場景驅動的時序線索(如攝影機視角或特定走路方向)。為了滿足因果分離特性,團隊在分群前加入了 CIW(因果干預暖身)階段來校正編碼器。

針對模態外觀帶來的偽相關,團隊設計了 MPB(模態微擾引導)機制。系統會隨機從反向模態中抽取參考影格,透過跨模態風格轉換技術對部分影格注入全局風格統計數據。這項操作能建構出反事實序列,在保留時序身分錨點的同時,刻意破壞全局的模態偏差。此外,針對時序線索的干擾,TTB(時間拓樸引導)機制會隨機置換相鄰影格以破壞原有時間拓樸,藉由計算原始與反事實序列間的對比損失,強迫模型忽略這類表面的運動捷徑。

保留身分語意的 ICS 序列一致性穩定機制

儘管去除光譜與時序的非因果捷徑相當重要,但過度激進的因果干預可能會抹除真正具備身分辨識度的特徵。從因果推論的角度來看,理想的表徵除了要阻斷干擾,還必須達成因果充分性(Causal Sufficiency)。因此,架構中必須存在一道穩定機制,確保除偏過程不會破壞將影像映射為身分特徵的核心任務能力。

為此,團隊引入了 ICS(身分一致性穩定)設計。這項機制利用了影片資料中最基礎的先驗知識:同一段影片軌跡內的所有影格,無論姿態如何變化,必定屬於同一身分。系統將同序列的影格視為正樣本,並將批次內隨機抽取的其他序列視為負樣本,透過加權正則化三元組損失強化序列內部的一致性。這種做法在去除干擾的同時,為特徵空間提供了穩定的身分約束錨點。

以可見光原型為基準的 PGUR 不確定性對齊

即使經過因果校正,兩種模態在辨識能力上的先天不對稱性依然存在。可見光影片保留了豐富的外觀細節與穩定的時空結構,而紅外線影片的紋理線索稀少,導致分群結果無可避免地呈現出「可見光精細、紅外線粗糙」的狀態。為了解決這項跨模態關聯難題,團隊提出了 PGUR(原型引導不確定性細化)模組。

這套機制將具備高鑑別度的可見光原型視為結構基準,藉此引導並修正紅外線表徵空間。系統首先採用漸進式二分圖匹配技術,建立可見光與紅外線原型的關聯性。如果一個紅外線叢集只對應到一個可見光叢集,則被判定為可靠的一對一關聯;反之,若一個紅外線叢集同時對應到多個可見光叢集,則被視為具有模糊性的一對多關係,必須進入後續的結構重組階段。

跨模態記憶體重構與 HITSZ-VCM 效能驗證

針對被判定為模糊的紅外線叢集,PGUR 執行強制重分配策略。系統會計算這些紅外線特徵與各個對應可見光原型之間的餘弦相似度,並將其重新分配給最相似的目標。這個步驟能將原本欠分群的粗糙叢集,強行拆解並重組成與可見光粒度相互對齊的精細子叢集。

完成重新分配後,系統會聚合這些新叢集內的特徵,產生微調過後的紅外線原型。這意味著每個可見光原型最終都會配對到一個獨一無二的紅外線原型,建構出尺寸完全相等的跨模態記憶體庫。透過這項將分群粒度從可見光轉移至紅外線的技術,CBA 框架成功解決了無監督跨模態重識別中最棘手的結構不一致問題,並在主流影片基準測試中展現出卓越的表現。

無監督跨模態重識別的關鍵不在於單純提取特徵,而是透過因果干預與模態粒度對齊,主動消除光譜與時序帶來的偽相關。

Abstract

VVI-ReID is a critical technique for all-day surveillance, where temporal information provides additional cues beyond static images. However, existing approaches rely heavily on fully supervised learning with expensive cross-modality annotations, limiting scalability. To address this issue, we investigate Unsupervised Learning for VVI-ReID (USL-VVI-ReID), which learns identity-discriminative representations directly from unlabeled video tracklets. Directly extending image-based USL-VI-ReID methods to this setting with generic pretrained encoders leads to suboptimal performance. Such encoders suffer from weak identity discrimination and strong modality bias, resulting in severe intra-modality identity confusion and pronounced clustering granularity imbalance between visible and infrared modalities. These issues jointly degrade pseudo-label reliability and hinder effective cross-modality alignment. To address these challenges, we propose a Causal Bootstrapped Alignment (CBA) framework that explicitly exploits inherent video priors. First, we introduce Causal Intervention Warm-up (CIW), which performs sequence-level causal interventions by leveraging temporal identity consistency and cross-modality identity consistency to suppress modality- and motion-induced spurious correlations while preserving identity-relevant semantics, yielding cleaner representations for unsupervised clustering. Second, we propose Prototype-Guided Uncertainty Refinement (PGUR), which employs a coarse-to-fine alignment strategy to resolve cross-modality granularity mismatch, reorganizing under-clustered infrared representations under the guidance of reliable visible prototypes with uncertainty-aware supervision. Extensive experiments on the HITSZ-VCM and BUPTCampus benchmarks demonstrate that CBA significantly outperforms existing USL-VI-ReID methods when extended to the USL-VVI-ReID setting.