NK-GAD: Neighbor Knowledge-Enhanced Unsupervised Graph Anomaly Detection

Zehao Wang, Lanjun Wang

View Original ↗
AI 導讀 technology AI 重要性 3/5

NK-GAD 框架破解圖神經網路同質性盲區,在七大數據集中將無監督異常檢測 AUC 提升 3.29%。

  • 真實圖數據具備強烈屬性異質性,單靠節點相似度無法過濾異常邊緣。
  • NK-GAD 聯合高低通濾波器,平行處理頻譜訊號以保留鄰居差異特徵。
  • 透過重建鄰居特徵分佈與中心聚合,能有效分離結構與上下文異常。

傳統圖神經網路常假設相連節點擁有相似特徵,但真實世界的社群與金融圖資卻顯示,無論異常或正常節點的連線,其屬性相似度多半落在極低的 0 到 0.25 區間。這個反直覺現象促使研究團隊開發出 NK-GAD 框架,直接將無監督圖異常檢測的平均 AUC 提升了 3.29%

突破同質性假設:圖結構中的屬性異質性現象

多數基於圖神經網路(GNN,透過節點間訊息傳遞來學習特徵的模型)的無監督異常檢測方法,都高度依賴同質性假設。這種傳統觀點認為相連的節點應該具備相似的屬性或標籤。但在現實場景如社群網路、電子商務與金融交易中,圖結構數據往往展現出強烈的屬性層級異質性(Attribute-level Heterophily,相連節點特徵差異極大)。

許多現有模型在處理這類異質性圖數據時,效能會大幅衰退。因為演算法在計算訊息傳遞時,會自動降低相異節點間的權重,導致過濾掉原本正常的鄰居資訊。為了找出這個問題的根本原因,研究人員針對 Weibo 與 Reddit 等真實資料集進行了深度特徵分析,並找出了傳統檢測機制的盲區。

頻譜與空間的觀察:單靠相似度無法分辨異常

從空間域的角度來看,研究團隊發現了一個關鍵現象。在這些具備屬性異質性的圖結構中,無論是「異常與正常」還是「正常與正常」的節點連線,雙方的屬性相似度分佈幾乎完全重合。這意味著現有演算法若僅依賴節點特徵的餘弦相似度來修剪邊緣,將會無差別地刪除正常連線,引發嚴重的資訊遺失。

轉向頻譜域(Spectral domain,將圖結構轉換至頻率空間進行分析)後,另一個明顯的特徵浮出水面。以 Weibo 資料集為例,超過 90% 的頻譜能量集中在中頻範圍;當移除圖中的異常邊緣後,低頻與高頻區域的頻譜能量分佈會出現一致的上升趨勢,而中頻區域的波動卻顯得雜亂無章。這項結果顯示,高頻與低頻成分的訊號遠比中頻更具異常判別力,但過去的方法卻往往忽略了高頻成分的重要性。

NK-GAD 框架設計:聯合高低頻訊號提取鄰居特徵

為了解決上述限制,研究團隊提出了一套名為 NK-GAD(鄰居知識增強的無監督圖異常檢測)的全新架構。這個模型揚棄了對單一頻率特徵的依賴,轉而設計出聯合圖卷積編碼器(Joint Graph Convolutional Encoder)。該編碼器內部配置了並行運作的低通與高通濾波器,能夠同時捕捉鄰居節點之間相似與相異的特徵模式。

低通濾波負責處理平滑的特徵過渡,保留節點間的共同屬性;高通濾波則專注於捕捉尖銳的特徵變化,反映出異質性圖中相連節點的差異。系統接著運用可學習的權重係數,將這兩股從頻譜域提取的表徵融合,生成更全面且不失真的隱藏層節點向量,作為後續異常分類的基礎。

鄰居重建與中心聚合:分層攔截結構與上下文異常

處理完特徵提取後,NK-GAD 必須面對圖數據中常見的兩種異常:結構異常(邊連線不合常理)與上下文異常(節點屬性與周圍格格不入)。針對結構異常,模型導入了鄰居重建模組,利用提取出的模式來預測鄰居特徵分佈的平均值、標準差與共變異數矩陣。這種做法能有效識別出不符合正常分佈的邊緣,進而降低異常鄰居對中心節點的影響。

面對上下文異常,系統則啟動中心聚合模組進行防禦。此模組透過圖注意力機制,將預測出的鄰居特徵分佈重新聚合,用以平滑並更新中心節點的表徵。最終,雙解碼器會接手這些被淨化的數據,分別重建節點屬性與鄰接矩陣,藉由計算重建誤差來為每個節點打上量化的異常分數。

七大數據集測試結果:平均 AUC 提升 3.29%

在涵蓋社群媒體、電子商務與通訊網絡的七個開源資料集上,NK-GAD 展現了強悍的泛化能力。對比 DOMINANT、GAD-NR 與 SmoothGNN 等九種主流基準模型,這套新框架在六個資料集中奪下最佳表現,平均 AUC(曲線下面積,衡量分類器效能的指標)提升幅度高達 3.29%

特別在包含百萬級別節點的 Elliptic 金融交易與 DGraph 數據集中,NK-GAD 依然能穩居榜首。這歸功於模型支援小批次(mini-batch)訓練策略,將記憶體消耗從節點數量的二次方降至接近線性增長。這項特性確保了即使面對擁有極端屬性異質性的大規模真實網路,模型也能在一般 GPU 環境下完成高效的無監督異常排查。

揚棄不合時宜的同質性假設,NK-GAD 證明了高低頻訊號的並行處理才是大規模圖異常檢測的關鍵解答。

Abstract

Graph anomaly detection aims to identify irregular patterns in graph-structured data. Most unsupervised GNN-based methods rely on the homophily assumption that connected nodes share similar attributes. However, real-world graphs often exhibit attribute-level heterophily, where connected nodes have dissimilar attributes. Our analysis of attribute-level heterophily graphs reveals two phenomena indicating that current approaches are not practical for unsupervised graph anomaly detection: 1) attribute similarities between connected nodes show nearly identical distributions across different connected node pair types, and 2) anomalies cause consistent variation trends between the graph with and without anomalous edges in the low- and high-frequency components of the spectral energy distributions, while the mid-part exhibits more erratic variations. Based on these observations, we propose NK-GAD, a neighbor knowledge-enhanced unsupervised graph anomaly detection framework. NK-GAD integrates a joint encoder capturing both similar and dissimilar neighbor features, a neighbor reconstruction module modeling normal distributions, a center aggregation module refining node features, and dual decoders for reconstructing attributes and structures. Experiments on seven datasets show NK-GAD achieves an average 3.29\% AUC improvement.