Betting on Bets: Anytime-Valid Tests for Stochastic Dominance

Sebastian Arnold, Yo Joong Choe, Marco Scarsini, Ilia Tsetlin

View Original ↗
AI 導讀 technology general 重要性 3/5

博弈論下注框架構造出任意時間點停止仍有效的序列統計工具,對任意 k 階隨機支配問題提供指數增長的非參數 e-process

  • E-process 框架允許在任意時間點停止或繼續監控,不引入傳統 p 值「提前偷看」導致的假陽性膨脹
  • 一階 SD 的最優下注比例有解析式 λ* = (p−q)/(p+q),可由歷史資料自動插值估計
  • 框架從一階 FSD 推廣至任意 k 階積分隨機序,比既有文獻僅需更弱的單邊下界假設

傳統統計假說檢定在固定樣本量前若提前停止,假陽性率就會悄然失控——對於需要持續監控的線上實驗,這是長達數十年的結構性缺陷。CWI Amsterdam 與 INSEAD 四位研究者以博弈論「下注」語言重新架構了這個問題,構造出可在任意時間點停止且仍保持型一錯誤控制的序列統計工具,對一階到任意 k 階的隨機支配問題給出了檢力趨近 1 的理論保證。

比較均值遠遠不夠:FSD 是嚴格的全分布比較

「均值相等」的兩個賭局,可以有截然不同的分布形狀。正因如此,經濟學與決策理論中長期使用「隨機支配」(stochastic dominance,SD)而非均值比較作為不確定前景的排序標準——SD 描述的是整條累積分布函數(CDF,cumulative distribution function)的形狀關係,而非單一統計量。

一階隨機支配(FSD,first-order stochastic dominance)的定義直白:若 X 的 CDF 在每個點都不高於 Y 的 CDF,即 F_X(z) ≤ F_Y(z) 對所有 z 成立,則稱 X 一階支配 Y。等效的效用函數詮釋是:任何偏好「多多益善」的決策者,只要 X 支配 Y,無論其效用函數的具體形狀如何,都會選 X。更高階的 SD(k 階)對效用函數加入更多限制,例如二階 SD 對應風險規避型決策者。

一個根本的理論事實使 SD 測試遠比均值測試困難:沒有任何有限個矩不等式可以蘊含一階或更高階的 SD。這意味著 SD 是真正的非參數問題,必須從整條分布函數入手,傳統的參數化假設全部失效。

以打賭量化統計證據:e-process 的博弈論詮釋

論文的核心工具是 e-process(e 過程)——一個非負的隨機過程,在任意停止時間 τ 下,其期望值在虛無假設下不超過 1。這個性質讓它天然具備「隨時停止都有效」的保證,對應 Ville 不等式(Ville's inequality,時均版 Markov 不等式):若 (M_t) 是一個測試超鞅(test supermartingale),則在所有時間點同時成立的假陽性率上界恆為 α。

論文給出的博弈論詮釋極為直觀:給定兩個不確定前景 X 與 Y(例如股票與債券的回報),「懷疑者」(skeptic)對閾值 z(例如 0%)下注——若 X 跌破 z 但 Y 沒有,賭注翻倍;若 Y 跌破 z 但 X 沒有,賭注歸零;兩者同時或同時不跌破則不變。懷疑者的累積財富,正是對抗「X 被 Y 支配」這一虛無假設的統計證據量。這個博弈可以由懷疑者自主選擇何時停止,而對統計效力毫無影響。

構成 e-process 的積木是「建構 e-variable」:S(λ, z) = 1 + λ[1(X≤z) − 1(Y≤z)],λ ∈ [0, 1]。這個形式淵源可追溯到 Kelly(1956)的最優賭注策略理論;Clerico(2025)最新結果更顯示:這族形式是對 H₀(z) 唯一的容許 e-value 集合,已無法再改進。

GRO 最優下注公式:λ* = (p − q)/(p + q) 的精確解

知道 e-variable 形式後,關鍵問題是:λ 要怎麼選才能讓財富增長最快?論文給出了精確解析答案。定義兩個機率——p(z) = Q(X ≤ z < Y)(對懷疑者有利的事件)與 q(z) = Q(Y ≤ z < X)(對懷疑者不利的事件)——最大化對數期望增長率的最優增長率(GRO,growth-rate optimal)下注比例為:

λ*(z) = (p(z) − q(z)) / (p(z) + q(z))

這個公式有清晰的直觀:當有利事件遠多於不利事件(p ≫ q)時,λ → 1(傾全力押注);當兩者旗鼓相當時,λ → 0(保守下注)。由於真實的 p 和 q 未知,論文提出對應的預測性插入估計量 λ̂_t,以前 t−1 期資料計算經驗分布後代入,且加入小幅上界限制避免財富歸零。

針對全局虛無假設,論文對所有閾值 z 取加權混合,再對所有時間步取乘積。定理 1 與命題 2 的核心結論是:這個混合 e-process 在任意對立假設下都以指數速率增長到無窮——即「漸近檢力一」(power one),且懷疑者累積財富越大,拒絕虛無假設的速度越快。

一階 FSD 到任意 k 階:框架的非參數推廣

論文的方法不止於一階 SD。二階隨機支配(SSD)對應 CDF 的一次積分排序(適用風險規避型效用函數),更高的 k 階 SD 涉及 CDF 的 k 次積分,無限階 SD 也在框架之內,另包含增凸序等變體。整套 e-process 構造方法均可推廣至這些「積分隨機序」(integral stochastic order)。

技術差異在於所需假設的強度:一階 SD 測試完全不需要分布假設;k 階(k ≥ 2)的 e-process 則需資料具備單邊下界(one-sided lower bound)或次指數(sub-exponential)尾部條件。相較之下,既有非序列文獻(如 Barrett & Donald 2003)通常要求更強的正則性條件(如分布連續性與有界性),本文假設更為寬鬆,屬於實質性的理論改進。

模擬驗證與「逆向問題」的開放挑戰

模擬實驗從三個維度驗證了方法的實用性:(1)序列測試在任意監控時間點嚴格維持型一錯誤控制,傳統非序列方法若中途停止則無法保證;(2)在檢力上與 McFadden(1989)的 KS 型檢定和 Linton et al.(2010)的 Cramér-von Mises 型檢定相當甚至更優;(3)明確優於以 CDF 時均信賴帶為基礎的先前序列方法(Howard & Ramdas 2022),後者為一般目的設計,對 SD 問題不夠專用。

論文最後坦承一個本質上更困難的「逆向問題」:若要測試 Y 確實在分布上優於 X(而非否定「Y 被 X 支配」),虛無假設與對立假設互換,虛無假設的「體積」遠大於對立,現有工具能給出非平凡 anytime-valid 測試的條件極為苛刻。這是論文明確留給後續研究的開放問題,顯示出作者對方法邊界的誠實態度。

打賭邏輯讓序列實驗在任意時間點中止都合法,e-process 比 p 值更適合需要持續監控的線上 A/B 測試與動態決策場景。

Abstract

How can we monitor, in real time, whether one uncertain prospect has any upside over another? To answer this question, we develop a novel family of sequential, anytime-valid tests for stochastic dominance (SD; also known as stochastic ordering), a classical and popular notion for comparing entire distribution functions. The problem is distinct from the popular problem of testing for dominance in means, which would not capture distributional differences beyond the first moment. We first derive powerful, nonparametric e-processes that quantify evidence against the null hypothesis that one prospect is dominated by another. For first-order SD, these e-processes are constructed as a mixture of asymptotically growth-rate optimal e-variables and yield a test of power one. The approach further generalizes to sequential testing for SD beyond the first order, including any higher-order SD. Empirically, we demonstrate that the resulting sequential tests are competitive with existing non-sequential SD tests in terms of power, while achieving validity under continuous monitoring that existing methods do not. Finally, we sketch the complementary and challenging problem of testing the non-SD null hypothesis, which asks whether a prospect has a definite upside, and describe the conditions under which we can derive a nontrivial anytime-valid test.