Scattered Hypothesis Generation for Open-Ended Event Forecasting
開放式事件預測從單一結果轉向散彈槍模式,SCATTER 框架結合強化學習,成功讓模型生成多樣且合理的未來假設。
- 將事件預測從給出唯一答案的精準射擊,轉化為覆蓋多種可能性的散彈預測。
- SCATTER 透過有效性、組內與組間多樣性三大獎勵,解決了強化學習的模式崩塌難題。
- 實測證明經過 SCATTER 最佳化的 3B 模型,在預測能力上成功擊敗 GPT-4o-mini。
當前基於大型語言模型的事件預測技術中,高達 90% 以上 的研究與應用皆集中於給出單一最可能的結果,卻忽略了真實世界固有的高度不確定性。中國傳媒大學與新加坡管理大學的研究團隊提出一項全新視角,將開放式事件預測從精準的單點預測轉變為散彈槍模式。透過生成涵蓋多種合理情境的假設集合,模型在處理複雜動態時,能更全面地捕捉未來發展軌跡。
突破單一結果預測侷限:導入散彈槍式的假設生成
事件預測在風險管理、公共政策與戰略決策中扮演著關鍵角色。目前的語言模型預測多半採用判別式(如多選題)或單一生成的開放式預測。研究團隊指出,這種模式就像是只發射一顆子彈的精準射擊,強迫模型在錯綜複雜的現實中給出唯一答案。
然而,正在發生的真實事件往往具備多種合理的分歧走向。單一預測模式大幅限縮了未來可能的發展空間。為了填補這項空白,研究人員引入了散彈預測(scatter forecasting)概念。這個概念將開放式事件預測重新定義為一項代理任務:假設生成(hypothesis generation)。
在此架構下,模型不再只給出一個答案,而是根據歷史脈絡生成一組具備包容性與多樣性的假設集合。這種作法允許預測系統如同散彈槍一般,一次涵蓋大片射擊區域,藉此覆蓋所有可能的未來事件空間,提供決策者更完整的風險輪廓。
克服標準強化學習缺陷:避免模型發生模式崩塌
要求 LLM(大型語言模型) 同時兼顧生成的包容性與多樣性是一項艱鉅挑戰。如果僅透過監督式微調,多數模型難以穩定產出多樣且合理的長尾事件。儘管近期熱門的 GRPO(群體相對策略最佳化,一種高效的強化學習演算法) 在數學或程式碼這類具備絕對標準答案的領域表現優異,但直接應用於無固定標準答案的開放式預測任務時,往往會面臨嚴重問題。
一方面,若過度強調包容性,模型傾向給出保守答案並引發模式崩塌,最終只產出單一結果;另一方面,若過度強調多樣性,則會產生雜訊梯度,導致最佳化過程極不穩定。
這些挑戰因為真實世界事件的不可逆性與反事實資料的缺乏而更加惡化。為了應對這些在探索過程中產生的副作用,團隊開發出名為 SCATTER 的強化學習框架,試圖在兩難中找到最佳解。
混合獎勵機制三大支柱:有效性與多樣性的平衡
SCATTER 建立在 GRPO 基礎上,透過一套混合獎勵機制來聯合最佳化包容性與多樣性。這套機制包含三個核心組件。首先是有效性獎勵,由於開放式預測缺乏客觀的黃金標準,研究人員利用預先訓練的文字嵌入模型計算餘弦相似度,作為衡量生成假設與已知事實對齊程度的粗粒度指標。
其次是組內多樣性獎勵,負責計算單次取樣中各個假設之間的成對不相似度,鼓勵單一回應內的變化。最後則是組間多樣性獎勵,利用加權不對稱倒角距離來衡量不同生成批次間的方向性差異,促使模型探索不同的合理模式。
關鍵在於,系統引入了基於有效性的門檻控制機制。這項機制會自動調降不符合事實的假設所獲得的多樣性分數,防止模型為了追求表面新穎而胡亂捏造,成功將訓練過程錨定在多樣且合理的假設空間內。
真實世界預測實測:開源 3B 模型超越商用基準
研究團隊使用 OpenForecast 與 OpenEP 兩個真實世界基準資料集進行評估,採用包含評估命中率的 SoftPass、評估真實覆蓋率的 SoftRecall 等指標。實驗結果顯示,搭載 SCATTER 框架的 Qwen2.5-3B-Instruct 模型在表現上顯著超越了包含 GPT-4o-mini 以及標準 GRPO 在內的強大基準。
面對由 GPT-4o-mini 屢次預測失敗所組成的困難子集時,SCATTER 依然保持顯著優勢。有趣的是,在標準資料集上,未經微調的基礎模型在困難子集上的表現甚至優於商業模型。
團隊推測這是因為經過嚴格安全對齊的商業模型存在對齊稅,使其過度偏好高機率的保守事件,反而限制了捕捉多元長尾事件的能力。此外,在跨領域的泛化測試中,SCATTER 也展現了極佳的強健性,證明其混合獎勵機制的廣泛適用性。
擴大取樣回合與假設數量的規模化優勢驗證
在生成策略的參數分析中,SCATTER 展現了極為優異的規模化特性。當取樣回合數增加時,標準 GRPO 雖然能提升基礎命中率,但其有效性比例卻會斷崖式下跌至接近零,代表其為了獲取獎勵而產出了大量語意重複或結構破碎的無效內容。
相反地,SCATTER 在擴展取樣回合時,能持續維持最高的有效性密度,成功在不偏離合理性的前提下發掘更多元假設。同時,當增加單次回應生成的假設數量時,SCATTER 的效能呈現陡峭的上升趨勢,有效擴展了語意覆蓋範圍。
透過降維視覺化生成假設的語意流形,可發現 SCATTER 的有效假設分佈更加均勻寬廣。這證明了該框架能將發散的探索過程,精準限制在符合上下文情境的合理未來之內,避免無意義的發散。
面對不可預測的未來,語言模型需要的是發散思考的假設生成能力,而非單一的標準答案,而基於多樣性門檻的強化學習正是解開這道難題的關鍵。