Betting on Bets: Anytime-Valid Tests for Stochastic Dominance
博弈論下注框架構造出任意時間點停止仍有效的序列統計工具,對任意 k 階隨機支配問題提供指數增長的非參數 e-process
- E-process 框架允許在任意時間點停止或繼續監控,不引入傳統 p 值「提前偷看」導致的假陽性膨脹
- 一階 SD 的最優下注比例有解析式 λ* = (p−q)/(p+q),可由歷史資料自動插值估計
- 框架從一階 FSD 推廣至任意 k 階積分隨機序,比既有文獻僅需更弱的單邊下界假設
傳統統計假說檢定在固定樣本量前若提前停止,假陽性率就會悄然失控——對於需要持續監控的線上實驗,這是長達數十年的結構性缺陷。CWI Amsterdam 與 INSEAD 四位研究者以博弈論「下注」語言重新架構了這個問題,構造出可在任意時間點停止且仍保持型一錯誤控制的序列統計工具,對一階到任意 k 階的隨機支配問題給出了檢力趨近 1 的理論保證。
比較均值遠遠不夠:FSD 是嚴格的全分布比較
「均值相等」的兩個賭局,可以有截然不同的分布形狀。正因如此,經濟學與決策理論中長期使用「隨機支配」(stochastic dominance,SD)而非均值比較作為不確定前景的排序標準——SD 描述的是整條累積分布函數(CDF,cumulative distribution function)的形狀關係,而非單一統計量。
一階隨機支配(FSD,first-order stochastic dominance)的定義直白:若 X 的 CDF 在每個點都不高於 Y 的 CDF,即 F_X(z) ≤ F_Y(z) 對所有 z 成立,則稱 X 一階支配 Y。等效的效用函數詮釋是:任何偏好「多多益善」的決策者,只要 X 支配 Y,無論其效用函數的具體形狀如何,都會選 X。更高階的 SD(k 階)對效用函數加入更多限制,例如二階 SD 對應風險規避型決策者。
一個根本的理論事實使 SD 測試遠比均值測試困難:沒有任何有限個矩不等式可以蘊含一階或更高階的 SD。這意味著 SD 是真正的非參數問題,必須從整條分布函數入手,傳統的參數化假設全部失效。
以打賭量化統計證據:e-process 的博弈論詮釋
論文的核心工具是 e-process(e 過程)——一個非負的隨機過程,在任意停止時間 τ 下,其期望值在虛無假設下不超過 1。這個性質讓它天然具備「隨時停止都有效」的保證,對應 Ville 不等式(Ville's inequality,時均版 Markov 不等式):若 (M_t) 是一個測試超鞅(test supermartingale),則在所有時間點同時成立的假陽性率上界恆為 α。
論文給出的博弈論詮釋極為直觀:給定兩個不確定前景 X 與 Y(例如股票與債券的回報),「懷疑者」(skeptic)對閾值 z(例如 0%)下注——若 X 跌破 z 但 Y 沒有,賭注翻倍;若 Y 跌破 z 但 X 沒有,賭注歸零;兩者同時或同時不跌破則不變。懷疑者的累積財富,正是對抗「X 被 Y 支配」這一虛無假設的統計證據量。這個博弈可以由懷疑者自主選擇何時停止,而對統計效力毫無影響。
構成 e-process 的積木是「建構 e-variable」:S(λ, z) = 1 + λ[1(X≤z) − 1(Y≤z)],λ ∈ [0, 1]。這個形式淵源可追溯到 Kelly(1956)的最優賭注策略理論;Clerico(2025)最新結果更顯示:這族形式是對 H₀(z) 唯一的容許 e-value 集合,已無法再改進。
GRO 最優下注公式:λ* = (p − q)/(p + q) 的精確解
知道 e-variable 形式後,關鍵問題是:λ 要怎麼選才能讓財富增長最快?論文給出了精確解析答案。定義兩個機率——p(z) = Q(X ≤ z < Y)(對懷疑者有利的事件)與 q(z) = Q(Y ≤ z < X)(對懷疑者不利的事件)——最大化對數期望增長率的最優增長率(GRO,growth-rate optimal)下注比例為:
λ*(z) = (p(z) − q(z)) / (p(z) + q(z))
這個公式有清晰的直觀:當有利事件遠多於不利事件(p ≫ q)時,λ → 1(傾全力押注);當兩者旗鼓相當時,λ → 0(保守下注)。由於真實的 p 和 q 未知,論文提出對應的預測性插入估計量 λ̂_t,以前 t−1 期資料計算經驗分布後代入,且加入小幅上界限制避免財富歸零。
針對全局虛無假設,論文對所有閾值 z 取加權混合,再對所有時間步取乘積。定理 1 與命題 2 的核心結論是:這個混合 e-process 在任意對立假設下都以指數速率增長到無窮——即「漸近檢力一」(power one),且懷疑者累積財富越大,拒絕虛無假設的速度越快。
一階 FSD 到任意 k 階:框架的非參數推廣
論文的方法不止於一階 SD。二階隨機支配(SSD)對應 CDF 的一次積分排序(適用風險規避型效用函數),更高的 k 階 SD 涉及 CDF 的 k 次積分,無限階 SD 也在框架之內,另包含增凸序等變體。整套 e-process 構造方法均可推廣至這些「積分隨機序」(integral stochastic order)。
技術差異在於所需假設的強度:一階 SD 測試完全不需要分布假設;k 階(k ≥ 2)的 e-process 則需資料具備單邊下界(one-sided lower bound)或次指數(sub-exponential)尾部條件。相較之下,既有非序列文獻(如 Barrett & Donald 2003)通常要求更強的正則性條件(如分布連續性與有界性),本文假設更為寬鬆,屬於實質性的理論改進。
模擬驗證與「逆向問題」的開放挑戰
模擬實驗從三個維度驗證了方法的實用性:(1)序列測試在任意監控時間點嚴格維持型一錯誤控制,傳統非序列方法若中途停止則無法保證;(2)在檢力上與 McFadden(1989)的 KS 型檢定和 Linton et al.(2010)的 Cramér-von Mises 型檢定相當甚至更優;(3)明確優於以 CDF 時均信賴帶為基礎的先前序列方法(Howard & Ramdas 2022),後者為一般目的設計,對 SD 問題不夠專用。
論文最後坦承一個本質上更困難的「逆向問題」:若要測試 Y 確實在分布上優於 X(而非否定「Y 被 X 支配」),虛無假設與對立假設互換,虛無假設的「體積」遠大於對立,現有工具能給出非平凡 anytime-valid 測試的條件極為苛刻。這是論文明確留給後續研究的開放問題,顯示出作者對方法邊界的誠實態度。
打賭邏輯讓序列實驗在任意時間點中止都合法,e-process 比 p 值更適合需要持續監控的線上 A/B 測試與動態決策場景。