A Comparison of Joint and Stepwise Dynamic Cognitive Diagnostic Models
蘭卡斯特大學研究指出,在僅有 6 題、200 人的條件下,聯合貝氏動態模型能有效克服傳統三階段估計的分類誤差。
- 傳統三階段估計法在處理縱向追蹤資料時,常因硬性分派潛在狀態而產生難以消除的分類誤差。
- 聯合貝氏動態模型透過同時計算測量與轉移參數,在小樣本與短測驗情境下顯著提升參數還原率。
- 當測驗題數擴展至 30 題且樣本達 600 人時,兩種估計法的屬性準確率(AAR)皆可突破 0.99。
在追蹤學習者技能隨時間變化的縱向資料分析中,資料科學家與研究人員經常面臨樣本數不足與分類誤差的數學挑戰。蘭卡斯特大學(Lancaster University)的最新研究透過蒙地卡羅模擬(Monte Carlo study)證實,當測驗題數僅有 6 題、樣本數低至 200 人 的嚴苛條件下,聯合貝氏動態認知診斷模型(Joint Bayesian Dynamic CDM)在還原技能轉移參數上的準確率,顯著超越了目前學界廣泛使用的三階段偏差校正法。這項研究為高度雜訊且資料稀缺的縱向追蹤數據,提供了一個運算效率與還原度兼具的新型演算框架。
傳統三階段估計在縱向認知診斷模型遭遇的誤差
縱向認知診斷模型(Longitudinal CDMs,一種用於評估個體潛在屬性狀態隨時間變化的模型)的核心價值,在於其能夠捕捉受測者在不同時間點的離散技能掌握狀態。與傳統關注連續成長軌跡的模型不同,這類模型專注於描繪具體的學習路徑與干預效果。為了進一步解釋「為什麼」受測者會出現這些狀態轉換,研究人員通常會將外部特徵(如人口統計變數、教學介入等)作為 Covariates(共變數,用以解釋潛在變數變化的外部觀測指標)納入模型結構中。
在過去的方法論發展中,逐步估計法(Stepwise approaches)特別是三階段方法,佔據了主導地位。這種方法的運作邏輯非常直觀:首先,僅依賴觀測到的作答反應來估計潛在測量模型;其次,將受測者指派到特定的潛在類別中;最後,再分析這些潛在類別與外部共變數之間的關聯。然而,最原始的三階段方法在第二步驟進行了「硬性指派(Hard assignment)」,完全忽略了後驗機率的分類不確定性,這直接導致後續估計結構參數時產生嚴重的偏差。
為了解決這個問題,後續的統計學家發展出了帶有偏差校正(Bias-corrected)機制的三階段潛在轉換 CDM。這種改良版方法在第二階段導入了分類誤差機率(Classification error probabilities, CEPs)矩陣,試圖透過數學權重來彌補硬性指派帶來的失真。即使如此,由於測量與結構模型依然是分離估計的,這類逐步策略在處理複雜的轉換參數時,仍然面臨資訊流失的風險,特別是在樣本規模受限的情況下,誤差的累積效應會被急遽放大。
整合測量與轉換參數的聯合貝氏動態運算架構
為突破逐步估計法的先天限制,本研究探討並評估了一種聯合貝氏動態 CDM 架構。這個架構的最大特徵,在於它在數學定義上維持了測量模型與結構模型的分離,但在估計階段,卻將潛在屬性輪廓、題目參數(猜測與失誤率)、初始屬性掌握參數以及時間點之間的轉換參數,全部交由 MCMC(馬可夫鏈蒙地卡羅法,透過隨機抽樣逼近複雜機率分佈的演算法)進行同步聯合估計。
在測量模型部分,研究採用了 DINA model(一種假設受測者需具備題目要求的所有屬性才能擁有高答對率的非補償性模型)。在這個設定下,題目的答對機率取決於受測者是否掌握了 Q-matrix(Q矩陣,定義測驗題目與潛在技能對應關係的二元矩陣)所規定的所有技能。同時,模型也考量了隨機猜對(Guessing)與不慎失誤(Slipping)的機率變數。
在潛在轉換的結構模型中,共變數同時影響著受測者在時間點 $t=1$ 的初始技能掌握度,以及後續獲取或失去該技能的轉換機率。為符合教育心理學中的累積學習特徵,研究導入了「吸收狀態(Absorbing state)」的假設,即一旦掌握了某項基礎技能,在短時間內就不會輕易忘記(機率設為零)。在聯合貝氏估計中,所有連續共變數皆被標準化為平均值零、變異數為一,並對迴歸係數賦予弱資訊先驗分佈(Weakly informative priors),確保最終的後驗推論主要由觀測數據的概似函數(Likelihood)所驅動。
涵蓋 200 至 600 人樣本的蒙地卡羅模擬實驗設定
為了客觀比較聯合貝氏方法與偏差校正三階段方法的效能,研究團隊設計了一套嚴謹的蒙地卡羅模擬實驗。實驗設定涵蓋兩個時間點與兩個潛在屬性,並假設 Q 矩陣為已知且跨時間不變。為了真實反映認知診斷測驗中常見的數據規模,模擬環境設置了三種組合條件:樣本數與測驗題數分別為 (N=200, J=6)、(N=400, J=18) 以及 (N=600, J=30)。
在共變數的生成上,為了模擬真實世界中預測變數之間往往互相影響的特性,模型為每位虛擬受測者生成了三個跨時間不變的共變數,並使其服從多元常態分佈。在主要的模擬情境中,這三個共變數之間的相關係數被設定為 ρ=0.4,代表中等程度的相關性;而在後續的敏感度分析中,團隊進一步測試了從絕對獨立(ρ=0)到高度相關(ρ=0.8)的不同極端情境。
題目的品質參數被設定在中等水準,猜測與失誤參數皆獨立從 0.15 到 0.25 的均勻分佈中抽取。實驗總共進行了 100 次的獨立重複抽樣(Replications)。在聯合模型的運算上,MCMC 演算法透過 JAGS 軟體執行,設置兩條平行鏈,在捨棄前 1,000 次的預熱迭代後,抽取 2,000 次樣本。收斂診斷指標 $\hat{R}$ 顯示,約 98% 的關鍵參數均小於 1.02,且覆蓋機率的蒙地卡羅誤差僅為 0.02,證明抽樣規模已具備高度統計顯著性。
在 6 題短測驗情境下聯合估計法展現的準確度優勢
模擬結果揭示了兩種估計法在不同資料規模下的效能差異。在評估屬性分類的準確率(Attribute-wise Agreement Rate, AAR)時,當面對 600 人 大樣本與 30 題 長測驗的最理想條件,兩種方法都展現了優異的表現,各屬性與時間點的 AAR 雙雙突破 0.99。同樣地,兩者在還原題目的猜測與失誤參數時,隨著樣本與題數增加,平均絕對誤差(MAE)與均方根誤差(RMSE)皆迅速收斂。
真正的分水嶺出現在 200 人樣本與 6 題測驗 的微型資料情境中。在這種極度缺乏觀測資訊的條件下,聯合估計法在初始共變數效應的參數還原上,產生的誤差明顯小於三階段方法。更關鍵的差異體現在「屬性獲取轉換參數」的估計上:即使在樣本量擴大後,三階段方法在估計轉換參數時依然表現出較大的變異性;反觀聯合貝氏模型,在所有條件下都能始終保持較低的 MAE 與 RMSE,顯示其在捕捉動態轉移軌跡時具備更高的穩定性。
此外,敏感度分析進一步證明了聯合估計法的強健性。無論共變數之間的相關係數 ρ 如何劇烈變動(從 0 變動至 0.8),聯合模型在項目參數與迴歸參數的 MAE 和 RMSE 波動幅度通常小於 0.1;相較之下,三階段方法在面對高度相關的共變數時,轉換參數估計的誤差波動高達 0.2 至 0.6,進一步凸顯了聯合估計在抗干擾能力上的優勢。值得一提的是,在單核心 CPU 環境下,聯合模型的單次迭代運算時間僅需約 0.8 至 6 分鐘,證明其在實務應用上並未因全域運算而犧牲過多效率。
延伸至 PISA 等大型國際評估專案的潛在運算應用
本次研究結果強烈支持了在小樣本與短測驗情境下,全面採用聯合估計架構的必要性。三階段逐步方法雖然在測量階段提供了極大的模型建構彈性(允許獨立擬合各時間點的數據),但其依賴前置階段的分類結果作為後續計算基礎的本質,不可避免地導致了分類不確定性的層層疊加。聯合模型透過單一概似函數將所有資訊進行全域最佳化,成功截斷了這種誤差傳遞鏈。
展望未來的演算法發展,此聯合框架具備極高的擴充潛力。現有研究主要基於非補償性的 DINA 模型,未來可進一步將其替換為 G-DINA(廣義 DINA 模型)或高階 DINA 模型,以適應更複雜的認知作答行為。同時,引入隨時間變動的動態共變數,也能讓模型更貼近真實的教學現場。
在大型資料科學的實務層面上,現有縱向模型多半假設 Q 矩陣為已知且絕對正確,但真實世界往往充滿模糊性。若能將「由數據驅動的 Q 矩陣自動估計技術」整合進目前的聯合貝氏動態框架中,將能大幅釋放該模型在大型國際教育評估專案中的潛力,例如跨國執行的 PISA(國際學生能力評估計畫)、PIAAC(國際成人能力評估計畫)以及 TIMSS(國際數學與科學教育成就趨勢調查)。這種從底層結構到外層動態皆交由演算法聯合學習的架構,將是未來教育量化分析的重要演進方向。
放棄分步妥協而轉向全域聯合估計,將是未來處理高雜訊、小樣本縱向動態數據的最佳數學解方。