針對 CTBT 網路高達 58% 的自動警報誤報率，研究團隊提出融合物理法則與資料缺失模式的混合式機器學習架構。

AI 導讀 technology AI 重要性 4/5

未偵測到訊號的測站狀態被直接量化為懲罰分數，而非用插值法填補，解決了資訊性缺失難題。
採用專家引導的類別條件模型，將對數似然函數拆解為偵測、未偵測與觀測三大擬合度特徵。
透過混合生成與判別學習兩階段管線，建立具備物理約束的羅吉斯迴歸分類器，實現決策透明度。

在全面禁止核子試爆條約（CTBT）的地震監測網路中，自動系統生成的警報有高達 58% 最終會被專家否決。傳統機器學習常因黑盒子特性而難以被信任，研究團隊為此提出一套混合模型架構，把科學理論轉換為擬合度分數，讓感測器缺漏成為核心的判斷基準。

針對 CTBT 地震監測高達 58% 的誤報挑戰

地震監測高度依賴全球分佈的感測器網路。當現有自動化系統比對波形並判定有地震或爆炸發生時，往往會錯誤地把地球兩端微弱且毫不相干的雜訊拼湊成一個不存在的「幽靈事件」。這種錯誤在密集的區域型網路較少見，但在跨國距的稀疏網路中卻是個嚴重痛點。處理這類資料時，最大的機器學習障礙在於資訊性缺失（Informative Missingness）。多數標準演算法假設資料缺失是隨機的（MAR，Missing at Random），習慣忽略或用插值法填補空白。

對於經驗豐富的地震分析師而言，某個測站「沒有偵測到訊號」其實強烈暗示了事件的真實性與規模。人類審核時，會自動在腦中執行基於波形傳遞物理學的擬合度檢查，判斷「如果這場地震是真的，這個距離的測站理應要有反應」。這正是剔除高達 58% 自動生成假警報的關鍵判斷依據。要讓 AI 擁有同等判斷力，就必須把這份領域知識與資料缺失的結構緊密結合起來，而非單純把缺漏視為需要被清除的雜訊。

科學先驗知識轉化為類別條件模型的兩階段架構

導入科學原理到資料驅動的工作流程是一項極具挑戰性的工程。研究團隊並不打算訓練一個包山包海的端到端深度神經網路，而是設計了一種專家引導的類別條件模型（Expert-guided class-conditional model）。這套框架不需要為所有的分類標籤建立完整的生成模型，只需針對「專家有充分物理知識」的特定類別（例如真實發生的地震事件）建立條件機率分佈。對於那些因為系統雜訊錯誤關聯而產生的無規律假警報，則不需要強求建立精確的數學模型。

運作機制分為兩個明確的階段。當系統面臨一筆包含多組感測器讀數與大量缺漏值的未知事件時，第一步會先進行「類別特定擬合（Class-specific fitting）」。模型會假設該事件為真，並依據物理定律推算出隱藏變數（θ），例如地震發生的確切位置與震級。有了這些基準參數後，系統就能進一步檢驗實際觀測到的訊號特徵與缺失模式，究竟有多符合科學理論的預期。這種將複雜實體轉換為擬合狀態的設計，為後續的解釋性奠定了基礎。

拆解對數似然函數的三大擬合度特徵評分機制

計算出預期參數後，系統會衡量觀測資料與專家模型之間的契合程度，也就是擬合度分數（Goodness-of-Fit Scores）。為了讓決策過程透明且具備診斷價值，團隊利用條件獨立性假設，將整體的對數似然巧妙拆解成三個直觀且獨立的組成部分。第一個部分是偵測機率分數（ℓ_det），用於衡量那些實際收到訊號的測站，其被觸發的機率是否合理。

第二個部分是整個架構的核心亮點：未偵測機率分數（ℓ_nondet）。它直接把「沒有收到訊號」的測站納入計分公式，將缺失值本身轉化為可量化的證據。如果物理模型認定某測站一定會響鈴卻保持靜默，這個分數就會給出嚴厲的懲罰。第三個部分則是觀測摘要分數（ℓ_obs），專注評估那些成功記錄下來的具體波形特徵，與理論數值之間的分佈落差。這套拆解機制讓最終的決策不再只是一組權重，而是能明確告訴分析師，這個事件是因為「該響的沒響」還是「數值不合常理」而被拒絕。

揚棄黑盒子與事後解釋的內在透明度設計

回顧過去結合生成與判別模型的歷史，最經典的範例莫過於 Fisher Kernel（利用生成模型將資料映射為對數似然梯度的核心空間）。另一條技術路線則是建構似然空間表示法，為每個類別標籤假定一個全域的生成模型，接著將樣本轉換成對數似然向量並進行分類。然而，這兩種傳統做法都預設了一組固定的全域模型，無法靈活處理每筆樣本皆有其特定隱藏變數（如個別地震規模）的情境。

研究團隊突破了這項限制，允許模型透過樣本特定參數發生變化。更重要的是，在可解釋機器學習的領域中，現行主流往往傾向對黑盒子模型進行事後解釋（Post-hoc explanations），例如抽出特徵重要性或注意力權重。但這篇研究所採取的策略屬於內在可解釋性（Intrinsically interpretable），從基礎特徵建立的那一刻起，就強制規定所有的中介表示層必須對應到人類專家能理解的物理概念。從根本上建造透明的決策路徑，往往比在複雜的神經網路外包裝一層解釋更具說服力。

整合生成與判別的混合學習管線與物聯網延展性

整個特徵工程階段將原本維度龐大、殘缺不全的感測器原始矩陣，高度濃縮成這三個具備明確物理意義的指標。接著在第三階段，系統只需將這幾個擬合度分數，連同少量的輔助變數，輸入到如羅吉斯迴歸（Logistic Regression）這種簡單且極度透明的分類器中。這種設計反映了混合生成與判別學習的哲學：由生成模型處理複雜結構與缺失值，由判別模型負責把關最終的分類準確度。

這項從 CTBT 地震監測中孕育出來的技術，並不僅限於地球科學。任何具備大量感測器佈建、面臨頻繁且具結構性資料缺失，同時又擁有強大基礎理論支撐的場域，都能應用這套框架。只要具備觀測脈絡與相對應的科學驗證規則，就能透過這套專家引導的類別條件打分法，建構出兼顧預測效能與決策可解釋性的實用機器學習系統。

結合科學先驗知識與缺失值量化，是高風險場域實現機器學習決策透明度的最佳路徑。

Abstract

We study a classification problem with three key challenges: pervasive informative missingness, the integration of partial prior expert knowledge into the learning process, and the need for interpretable decision rules. We propose a framework that encodes prior knowledge through an expert-guided class-conditional model for one or more classes, and use this model to construct a small set of interpretable goodness-of-fit features. The features quantify how well the observed data agree with the expert model, isolating the contributions of different aspects of the data, including both observed and missing components. These features are combined with a few transparent auxiliary summaries in a simple discriminative classifier, resulting in a decision rule that is easy to inspect and justify. We develop and apply the framework in the context of seismic monitoring used to assess compliance with the Comprehensive Nuclear-Test-Ban Treaty. We show that the method has strong potential as a transparent screening tool, reducing workload for expert analysts. A simulation designed to isolate the contribution of the proposed framework shows that this interpretable expert-guided method can even outperform strong standard machine-learning classifiers, particularly when training samples are small.

Expert-Guided Class-Conditional Goodness-of-Fit Scores for Interpretable Classification with Informative Missingness: An Application to Seismic Monitoring

針對 CTBT 地震監測高達 58% 的誤報挑戰

科學先驗知識轉化為類別條件模型的兩階段架構

拆解對數似然函數的三大擬合度特徵評分機制

揚棄黑盒子與事後解釋的內在透明度設計

整合生成與判別的混合學習管線與物聯網延展性

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。