Sparse regression, classification, and microbial network estimation in QIIME2 with q2-classo and q2-gglasso

Oleg Vlasovets, Fabian Schaipp, Leo Simpson, Evan Bolyen, J. Gregory Caporaso, et al.

View Original ↗
AI 導讀 technology infrastructure 重要性 3/5

德國研究團隊推出 q2-classo 與 q2-gglasso 兩款 QIIME 2 插件,專門解決微生體定序成分資料的稀疏迴歸與網路估計難題。

  • q2-classo 運用對數對比模型,支援連續與二元結果的稀疏迴歸分類及樹狀聚合分析。
  • q2-gglasso 提供多模態圖形套索,可將微生物網路分解為稀疏直接互動與低秩潛在因子。
  • 兩套件已於阿塔卡馬沙漠 50 個土壤樣本驗證,並以 BSD-3 開源整合至 QIIME 2 平台。

微生物相定序資料常伴隨極端稀疏與高維度特性,特徵數量往往遠大於樣本數。來自德國亥姆霍茲慕尼黑研究中心的團隊正式發表 q2-classoq2-gglasso 兩款全新 QIIME 2 擴充套件,直接將對數對比迴歸與圖形套索(graphical lasso)模型導入生態系,解決成分數據在統計分析上的根本限制。

微生物相定序資料的高維度與稀疏挑戰

從高通量擴增子(amplicon)或宏基因體定序實驗取得的微生物豐度資料,通常會以擴增子序列變異(ASVs)或操作分類單元(OTUs)呈現。這類資料具有三大棘手特徵:包含大量零值(極度稀疏)、僅具備相對豐度資訊(成分資料),以及高維度特性。在典型的微生體資料集中,微生物特徵的數量通常遠大於可用的樣本數。這種維度災難使得下游的統計任務,如差異豐度測試、迴歸分析或共變異數與網路估計變得異常困難。

目前廣泛使用的開源微生體平台 QIIME 2 雖具備完整的資料預處理與群落結構調查工具,但專門針對成分計數資料設計的進階統計套件相對缺乏。舉例來說,現有的 q2-sample-classifier 雖提供 Ridge 與 Lasso 等標準機器學習演算法,卻缺乏專為成分資料設計的對數對比迴歸模型。而 q2-SCNIC 則是目前唯一用於網路估計的工具,主要基於成對相關性建構網路,無法處理更複雜的條件依賴。為填補缺口,研究團隊開發了兩套奠基於嚴謹高維度統計模型的套件。

q2-classo 插件:對數對比稀疏迴歸與分類

q2-classo 的核心目標是利用高維度的微生物豐度資料,預測連續型或二元型的目標變數,例如環境共變數或患者疾病狀態。其底層採用對數對比模型(log-contrast model),這是一種將感興趣的結果隱式建模為各個微生物相對豐度對數比線性組合的統計方法。針對特徵數多於樣本數的情境,該模型結合了稀疏懲罰估計,並延伸支援穩健迴歸與聯合雜訊估計。

在實際運作流程中,q2-classo 會接收 QIIME 2 的特徵表與分類學資料作為輸入,並在擬合模型前自動套用中心對數比轉換(centered log-ratio transform)。該套件提供三大模型類別:針對連續結果的稀疏對數對比迴歸、針對二元結果的分類模型,以及可整合分類學階層資訊的樹狀聚合對數對比模型(trac)。為了避免過度擬合,套件內建了理論推導固定懲罰值、k 折交叉驗證(k-fold CV),以及穩定性選擇(stability selection)等三種模型選擇策略。分析結果包含選定分類群、效應大小與模型選擇曲線,皆會儲存為原生 .qza 格式。

q2-gglasso 插件:基於稀疏圖形模型建構網路

另一款核心套件 q2-gglasso 專注於透過圖形建模技術,估計微生物分類群之間的關聯網路。其基本原理是利用懲罰概似函數,從微生物特徵的樣本共變異數矩陣中,估計出稀疏的反共變異數(或稱精確度)矩陣,即統計學上的圖形套索模型。這個矩陣中的非零係數與偏相關性直接相關,可解釋為不同特徵間的交互作用,並轉換為視覺化網路。為了適應成分資料特性,運算前會強制執行中心對數比或修改版中心對數比(mclr)轉換。

套件內建三種主要的圖形模型架構。首先是標準圖形套索,用於還原分類群間的條件依賴結構,概念類似知名的 SPIEC-EASI(針對生態關聯推論的稀疏反共變異數估計)框架。其次是多模態圖形套索,能透過對不同模態進行自適應懲罰,聯合估計分類群與環境共變數之間的關聯。最值得注意的是稀疏加低秩模型(sparse+low-rank model),該模型能將精確度矩陣分解為代表直接互動的稀疏成分,以及代表潛在因子的低秩成分。這種拆解不僅有助於校正隱藏干擾變數,其低秩矩陣還能用於執行穩健的主成分分析(rPCA)。

應用於 50 個樣本的阿塔卡馬沙漠土壤資料集

為了驗證新工具的實務效能,研究團隊採用了阿塔卡馬沙漠土壤微生體資料集進行測試,並提取其中 50 個樣本內豐度最高的 13 種分類群子集。在 q2-classo 的測試環境中,團隊分別將「平均土壤溫度」與「植被類型」設為連續與二元預測目標。針對這兩項任務,穩定性選擇機制皆成功識別出一小組具備高度預測能力的關鍵微生物分類群。

在網路估計環節,團隊運用 q2-gglasso 處理同一組子集,首先估計出稀疏反共變異數矩陣以找出偏相關結構。研究人員進一步展示如何將現有的環境共變數納入模型,成功學習到分類群與環境變數間的聯合偏相關性。最終,團隊僅依靠分類群資料訓練出潛在圖形模型,並證實從中分離出的低秩潛在成分,與實際觀測到的關鍵環境共變數呈現高度相關。

採用 BSD-3 授權無縫整合 QIIME 2 生態系

這兩款採用 Python 實作的擴充套件,分別建構於既有的開源演算法庫之上。q2-classo 是建立在 c-lasso 核心套件之上,而 q2-gglasso 則是繼承了高效能的 GGLasso 函式庫。目前兩者皆遵循 BSD-3-Clause 授權條款釋出,研究人員可透過 GitHub 取得原始碼,並支援直接在 QIIME 2 或 Docker 容器環境中安裝。

具備成分感知(compositionally-aware)能力的統計工具正式進入主流生態系,代表微生體研究人員不再需要為了進階統計而在多個軟體環境間來回切換。透過將先進的高維度稀疏迴歸與網路估計無縫整合進現有分析工作流,搭配 QIIME 2 內建的自動化資料來源追蹤功能,大幅降低了技術門檻,同時確保分析流程的透明度與可重現性。

q2-classo 與 q2-gglasso 將高階圖形套索與對數對比模型引入 QIIME 2,為成分數據的高維度統計分析建立新標準。

Abstract

Motivation: Statistical analysis of microbial count data derived from 16S rRNA or metagenomics sequencing poses unique challenges due to the sparse, compositional, and high-dimensional nature of the data. While QIIME 2 already provides many tools for data pre-processing and analysis, plugins for statistical regression, classification, and microbial network estimation tailored to compositional count data are relatively scarce. Results: We present q2-classo and q2-gglasso, two novel QIIME 2 plugins that implement penalized regression, classification, and graphical modeling approaches for microbial compositional data. q2-classo enables the prediction of a continuous or binary outcome of interest using compositional microbiome data as predictors. Both sparse log-contrast regression and classification, as well as tree-aggregated log-contrast models are available. q2-gglasso enables the estimation of taxon-taxon association networks through sparse graphical model estimation, such as, e.g., the SPIEC-EASI framework, as well as adaptive and latent graphical models. The latent model can decompose taxon-taxon associations into a sparse direct interaction matrix and a latent (low-rank) matrix which enables robust principal component embedding of a data set. Within the QIIME 2 ecosystem we demonstrate their application on the Atacama soil microbiome dataset, illustrating robust model selection, classification, and microbial network estimation with covariates and latent factors. Availability: The software is freely available under the BSD-3-Clause License. Source code is available at https://github.com/bio-datascience/q2-gglasso and https://github.com/bio-datascience/q2-classo-latest, with installation through QIIME 2 and Docker.