Spatially continuous modelling of aggregated outcome data

Stephen Jun Villejo, Peter Diggle, Finn Lindgren, Haavard Rue, Guangquan Li, et al.

View Original ↗
AI 導讀 technology general 重要性 4/5

帝國學院團隊提出空間連續的區塊聚合模型,解決 283 個不規則觀測區與高解析度共變數的空間錯位難題。

  • 傳統空間平均法強制降維會引發 MAUP 與聚合偏差,損失高解析度共變數的預測價值。
  • 泊松採樣模型搭配對數連結函數,能有效避免將非線性空間關係強行線性化造成的生態謬誤。
  • 區塊聚合模型具備空間解總能力,能直接輸出版圖不重疊的精細行政區疾病風險預測值。

當觀測數據分布在 283 個不規則的廢水集水區,而人口密度等共變數卻以 1公里 × 1公里 的高解析度網格呈現時,傳統空間平均法會引發嚴重的聚合偏差。Stephen Jun Villejo 研究團隊提出一種空間連續的區塊聚合模型,透過線性化整合嵌套拉普拉斯近似法克服非線性運算瓶頸,精準實現跨空間解析度的風險預測。

解決空間流行病學的 MAUP 與數據錯位難題

在空間流行病學與地理統計中,研究人員經常面臨空間錯位(spatial misalignment)的困境。應變數(如疾病發生數、廢水病毒濃度)通常以較粗糙的行政區塊(blocks)為單位進行加總記錄。然而,影響這些結果的共變數(如環境特徵、人口結構)往往來自解析度極高的網格影像,兩者在空間尺度上完全不匹配。

過去業界最普及的作法,是將高解析度的共變數進行空間平均,強制將其降維至與觀測區塊一致的尺度。這種預處理方式會帶來兩大限制:首先,在非線性模型中,直接估計觀測值與共變數的關係會產生嚴重的聚合偏差。其次,當研究人員改變區塊的劃分方式時,預測結果會出現劇烈波動,這在地理學上被稱為 MAUP(Modifiable Areal Unit Problem,可變面積單元問題,指空間劃分方式改變會大幅干擾統計結果)。

為了突破上述限制,研究團隊主張自然界的空間過程本質上是連續的,不應受到人為劃分區塊的侷限。他們提出一種全新的區塊聚合模型(block aggregation model),將科學界關注的潛在空間連續過程,與決定應變數分布的採樣模型結合。這種策略保留了底層數據的連續性,能直接產出高解析度的風險地圖,並能自由跨越不同行政邊界進行預測。

涵蓋高斯與泊松採樣的空間連續潛在過程

在區塊聚合模型的具體設計中,研究團隊針對每個高解析度網格點定義了一個線性預測值,該數值由固定效應與具有空間相關性的隨機效應(如 Matérn 高斯場)組合而成。這些網格層級的潛在過程,會透過特定的反連結函數與空間積分,決定上層區塊觀測值的期望值分布。

針對連續型數據,團隊設計了高斯採樣模型(Gaussian sampling model)。在使用恆等連結函數與等權重設定下,這在數學上等同於將網格層級的共變數進行無加權平均。這意味著在高斯模型中,使用高解析度共變數與直接使用區塊平均值,兩者在理論上會得出極為相近的推論結果。

然而,在處理計數數據的泊松採樣模型(Poisson sampling model)中,推論的複雜度大幅提升。泊松模型採用對數連結函數,這使得底層的非線性轉換會產生與傳統聚合做法顯著不同的條件期望值。這種基於對數-高斯考克斯過程(Log-Gaussian Cox process)概念的模型,能有效避免將非線性關係強行線性化所帶來的生態謬誤,在精細尺度的還原上展現出關鍵優勢。

線性化 INLA 演算法突破非線性推論瓶頸

為了對上述階層模型進行貝氏推論,研究團隊選擇使用 INLA(Integrated Nested Laplace Approximation,一種快速計算邊際後驗分配的確定性演算法)。這種方法比傳統的馬可夫鏈蒙地卡羅(MCMC)具備更高的運算效率,特別適合處理大規模空間數據。

傳統上標準的 INLA 無法直接處理非線性泛函,這成為泊松採樣模型在運算上的一大阻礙。為了解決這個瓶頸,團隊導入了一種基於一階泰勒展開式的線性化技術。他們在特定的線性化點上展開反連結函數,將預測表達式轉換為具有常數項與導數向量的近似線性結構。

透過這項轉換技術,複雜的潛在模型被降解為標準的潛在高斯模型。演算法會採用迭代運算機制,不斷更新線性化點,直到線性化模型與非線性原始模型的預測差異最小化,且線性化點的相對最大變動低於後驗標準差的閾值。這項機制大幅提升了空間解總模型擬合的實用性與穩定性。

100個網格區塊模擬對比 Centroid 與 MRF 模型

為了驗證區塊聚合模型的效能,團隊在一個單位正方形區域內劃分了 100 個觀測區塊,每個區塊內部包含 25 個高解析度網格,並與兩種業界標準作法進行模擬對比。第一種是對照模型 A(Centroids),將區塊觀測值視為位於質心的點數據並保留連續空間場;第二種是對照模型 B(MRF),完全放棄連續空間假設,改用離散的馬可夫隨機場模型。

模擬測試顯示,在預測整個區塊的總體表現上,三種方法的差異並不顯著。但是,當空間相關性範圍縮小至 0.05 單位(小於單一區塊的邊長)時,MRF 模型的 Dawid-Sebastiani 預測評分出現大幅衰退,而保留空間連續性假設的區塊聚合模型與質心模型則依然保持穩定。

更具指標意義的差異體現在高解析度網格的空間解總任務上。在泊松採樣的模擬情境中,兩款對照模型因為先天缺乏拆解區塊數據的能力,其網格層級預測的均方根誤差(RMSE)極高,且共變數的參數估計出現明顯偏差。相對地,區塊聚合模型能準確還原出底層的網格期望值,且其信賴區間覆蓋率穩定維持在標稱的 95% 理想水平。

英格蘭 283 個廢水集水區 SARS-CoV-2 實測分析

除了數值模擬,研究團隊也將這套模型應用於英格蘭真實的環境流行病學挑戰中。觀測數據來自英格蘭 283 個污水處理廠集水區在 2021 年 6 月初的 SARS-CoV-2 病毒濃度週平均值。應用目標是利用 1公里 × 1公里 解析度的人口密度作為環境共變數,預測英格蘭各個下層地方政府(LTLA)的潛在病毒濃度。

這項分析的核心難題在於,污水集水區的邊界極度不規則,且與 LTLA 的行政區劃幾乎完全不重疊。如果採用離散的 MRF 模型,研究人員必須先處理集水區網絡圖中的孤立節點與斷鏈問題,計算出結果後,還需透過複雜的人口重疊比例公式勉強推算 LTLA 的數值,過程繁瑣且容易引入地理誤差。

導入區塊聚合模型後,空間預測的分析流程變得極為直觀。團隊首先在 1公里網格的解析度上,精準估計出人口密度與病毒濃度之間的正向關聯,並建構出全英格蘭的連續空間風險場。接著,他們只需簡單套用 LTLA 的行政邊界,就能透過空間積分直接輸出預測結果。這證明了新模型在處理跨邊界空間數據時,能同時兼顧高解析度還原與跨維度推論的能力。

在處理空間尺度錯位的統計數據時,捨棄人工劃分的離散邊界並擁抱連續空間建模,才能真正釋放高解析度環境變數的預測潛力。

補充數據視覺化

模擬情境設定參數表
模擬參數類型測試數值設定
空間採樣比例 (Sampling proportion)30%, 60%, 100%
空間相關性範圍 (Range parameter)0.05, 0.1, 0.4 單位
空間場邊際變異數 (Marginal variance)0.1, 1.0

Abstract

This work develops a block aggregation approach to spatial estimation and prediction when the response is observed at a coarse spatial scale, for example as counts of events in administrative areas, or blocks, while covariates are available at a finer spatial resolution, typically as raster images. Our approach specifies a linear predictor at the finer resolution as a combination of covariate effects and a latent, spatially continuous Gaussian process. This linear predictor then determines the distribution of the response through an inverse link function and spatial integration. We use a simulation study to evaluate the performance of the proposed approach in comparison to two industry standard approaches: a traditional geostatistical model that associates each response with the centroid of its block; and a Markov random field (MRF) approach that aggregates covariate data to block-level. As expected, the differences in performance among the three approaches are small with respect to block-level prediction. The rationale for, and advantage of, the block aggregation approach lies in its delivery of reliable inferences at whatever spatial resolution is required in a particular application. We describe two applications: a linear Gaussian sampling model of wastewater virus concentrations in England, using population density as covariate; and log-linear Poisson model of cardiovascular hospitalisations in England using socio-demographic variables at fine-scale administrative units as covariates.