When do trajectories matter? Identifiability analysis for stochastic transport phenomena

Matthew J Simpson, Michael J Plank

View Original ↗
AI 導讀 technology general 重要性 3/5

隨機漫步模型分析顯示,僅靠「計數資料」會導致參數推估面臨結構不可識別性,加入 5% 個體的「軌跡資料」方能精準解開承載容量盲點。

  • 計數資料對群體最大承載容量缺乏敏感度,易導致模型參數出現結構不可識別性。
  • 偏微分方程替代模型能有效預測群體分佈與標記軌跡機率,免除高昂運算成本。
  • 匯集計數對數似然函數與個體軌跡資料,能強制參數收斂並大幅提升推論精確度。

在評估細胞遷移或動物棲地擴散的隨機漫步模型中,科學家發現若僅依賴空間網格的傳統計數資料,會面臨參數無法唯一確立的數學難題。一項結合偏微分方程的最新分析證實,只要額外追蹤約 5% 個體的軌跡資料,就能精準推算出群體擴散的承載上限,徹底改變了實驗資料蒐集的策略。

建立二維離散隨機漫步模型與承載容量 $\kappa$

隨機漫步(Random walk)模型常被用來理解物理、化學與生物現象中不確定性累積與宏觀行為湧現的過程。為了探討不同實驗資料類型的效力,研究團隊建立了一個基於二維方形晶格(2D square lattice)的離散時間隨機漫步模型。這個空間晶格具備高度 $H$ 與寬度 $W=2L$,時間步長設定為 $\tau$,網格間距則設定為 $\Delta$。

在模型設定中,最關鍵的變數是承載容量 $\kappa$(Carrying capacity),它代表單一網格最多能容納的代理個體(Agent)數量,並被視為一個需要由數據估計的未知常數。引入 $\kappa$ 使得該模型擁有極高的泛用性:當設定 $\kappa=1$ 時,模型會簡化為排他過程(Exclusion process),常用於模擬擁擠的細胞遷移環境;而當 $\kappa \to \infty$ 時,單一節點能容納無限多個體,模型便自動轉換為經典的帶偏誤布朗運動(Biased Brownian motion)。

系統演化機制採用隨機循序更新方法。每個時間步長內,個體有 $M$ 的機率嘗試移動,並受到方向偏誤參數 $\rho_x$ 與 $\rho_y$ 的引導。如果目標網格當前的個體數 $N_{i,j}$ 已經達到上限,移動指令將被中止。這套嚴格遵守局部容量限制的演算法機制,為後續測試「資料類型如何影響參數推估」打造了理想的實驗場景。

運用偏微分方程模型追蹤群體計數 $N(x,t)$

傳統上推論隨機漫步模型的參數,必須高度依賴消耗大量運算資源的隨機模擬。為解決運算瓶頸,研究團隊發展了一套連續的替代模型,將追蹤網格的離散計數(Count data)轉化為偏微分方程(PDE)。他們先寫出描述單一網格平均佔有率的離散守恆方程式,將個體移入與移出的獨立機率逐一加總。

接著,透過將離散變數對應至連續變數 $N(x,y,t)$,並運用截斷的泰勒展開式(忽略 $\mathcal{O}(\Delta^3)$ 的高階項),推導出群體密度在空間中演化的 PDE。這個方程式的核心是由擴散係數 $D$ 與漂移速度向量組成,精準描述了整體族群的遷移趨勢。例如在無偏誤的情況下,總體計數數據在空間中呈現對稱擴散;而在水平方向引入偏誤時,族群便會在特定區域累積出非對稱的擠壓分佈。

研究團隊透過設定無通量邊界條件與特定的初始配置,讓垂直方向的宏觀梯度歸零,從而將問題簡化為一維傳輸。比對電腦模擬結果證實,這套基於平均場近似的 PDE 替代模型能夠極為準確地預測長條狀計數數據的平均趨勢,完全免除了重複執行成千上萬次蒙地卡羅隨機模擬的龐大成本。

推導 5% 標記個體軌跡機率密度的 PDE 模型

除了採集空間區域的群體計數,現代生物與生態觀測越來越重視追蹤單一個體的移動軌跡。為了從數學上描述這種軌跡資料(Trajectory data),研究團隊假設在時間 $t=0$ 時,對群體中的特定個體(例如右側邊緣約 5% 的族群)進行標記,並用 $P(x,y,t)$ 來表示這些被標記個體在不同時間點所在位置的機率密度函數(PDF)。

在推導 $P(x,y,t)$ 的連續偏微分方程時,團隊採用了與總體計數相似的泰勒展開推導手法。然而,$P(x,t)$ 與 $N(x,t)$ 在定義與物理意義上有著根本的差異:方程式 $N(x,t)$ 計算的是網格上受限於最大承載容量 $K$ 的連續個體密度,數值被限制在 $0$ 到 $K$ 之間;而 $P(x,t)$ 則是一個無上界的機率密度函數,代表追蹤單一對象在全域空間的足跡分佈,其在整體空間範圍內的積分必須永遠等於 1。

這組全新的軌跡 PDE 模型,成功把總群體分佈密度與標記個體的運動機率耦合在一起。當實驗中存在擁擠效應時,總體數量的堵塞 $N(x,t)$ 會透過方程式直接干預並降低標記個體 $P(x,t)$ 向前推進的機率。與實際從隨機模擬得出的分佈直方圖相比,這組 PDE 解析解能高精確度地重現標記個體因為受擠壓而產生的位移滯後現象。

可識別性難題:計數資料難以估計承載容量 $K$

擁有高效的連續數學替代模型後,研究人員接著探討可識別性(Identifiability),即我們能否從觀測數據中反推出真實的模型參數 $\boldsymbol{\theta} = (D, v, K)$。在參數估計理論中,「結構可識別性」判定的是在擁有無限且無雜訊的完美資料下能否唯一求解;「實用可識別性」則探討有限且含雜訊的現實資料是否足以支撐運算。

長久以來,實驗分析習慣將計數數據除以未知的最大容量 $\kappa$,轉換為無因次密度以進行競爭模型擬合,卻鮮少質疑 $\kappa$ 是否真的能從數據本身被估算出來。研究團隊在構建對數似然函數(Log-likelihood function)時,特別將網格的計數資料假設為受限於最大上限 $K \cdot H$ 的二項式分佈(Binomial distribution),嚴謹還原了物理限制。

深入的似然性剖面分析揭露了一個重要事實:當擴散機制不具偏誤時,僅使用空間網格的計數資料會面臨嚴重的結構不可識別性。這代表純計數資料對承載容量 $K$ 異常不敏感。無論擴散係數 $D$ 有多大,只要配合數學上相對應的 $K$ 值,方程式都能產生近乎一致的總體密度輪廓。若科學家僅依靠傳統樣區計數,極有可能會推導出無法對應現實機制的擴散參數組合。

匯集軌跡與計數對數似然函數以確立模型參數

單一個體軌跡資料的引入,成為了解決參數估計困境的核心關鍵。在細胞培養皿中追蹤螢光染色的單一細胞,或是利用 GPS 數據追蹤特定動物,都能產出極具數學價值的個體路徑。當團隊利用 $P(x,t)$ 構建專屬軌跡資料的對數似然函數時,發現軌跡對於局部擁擠效應極為敏銳,因此對承載容量 $K$ 具備強大的捕捉能力。

為了最大化推論精度,最有效的資料處理策略是進行「數據匯集(Data pooling)」。透過將粗糙網格的計數資料對數似然函數,與少數標記個體的軌跡對數似然函數相加合併,原本在參數空間中呈現平坦、無法得出單一解的似然地貌,會立刻收縮聚焦出一個極其明確的最佳參數峰值。

這套結合 PDE 替代模型與似然分析的工作流證實,傳統經常倚賴的大規模粗放計數調查在提取物理傳輸參數上效率偏低。只要有意識地在實驗設計中加入小比例的標記軌跡追蹤,即使軌跡本身充滿隨機變異,也能在數學層面上徹底消除結構不可識別性,確保實驗推論的嚴謹度。

僅靠大面積人數清點難以還原真實的系統承載限制,混搭少數標記個體軌跡才是精確解析擴散機制的最優解。

Abstract

Stochastic models of diffusion are routinely used to study dispersal of populations, including populations of animals, plants, seeds and cells. Advances in imaging and field measurement technologies mean that data are often collected across a range of scales, including count data collected across a series of fixed sampling regions to characterize population-level dispersal, as well as individual trajectory data to examine at the motion of individuals within a diffusive population. In this work we consider a lattice-based random walk model and examine the extent to which model parameters can be determined by collecting count data and/or trajectory data. Our analysis combines agent-based stochastic simulations, mean-field partial differential equation approximations, likelihood-based estimation, identifiability analysis, and model-based prediction. These combined tools reveal that working with count data alone can sometimes lead to challenges involving structural non-identifiability that can be alleviated by collecting trajectory data. Furthermore, these tools allow us to explore how different experimental designs impact inferential precision by comparing how different trajectory data collection protocols affects practical identifiability. Open source implementations of all algorithms used in this work are available on GitHub.