Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine
以 10-25 倍更低成本,廉價語言模型搭配貝葉斯引擎全面超越頂尖 LLM 獨立問診,優勢來自架構分離。
- BMBE 把 LLM 限制為純語言感測器,所有機率推斷由貝葉斯引擎完成,患者資料從不進入 LLM。
- 廉價感測器搭配貝葉斯引擎,token 成本低 10-25 倍,診斷指標 DHS 仍全面超越頂尖前沿模型。
- 可調門檻 τ 讓部署者在高流量分診與零容錯轉診之間連續切換,無需重新訓練任何模型。
用 10-25 倍更低成本搭配廉價語言模型,仍能超越頂尖 LLM 獨立問診——這不是模型更強,而是架構更對。EPFL 的 BMBE(Bayesian Medical Belief Engine,貝葉斯醫療信念引擎)論點直接:語言理解與機率推斷從設計層面就不該混在同一個模型裡,把兩件事塞給同一個系統,是架構缺陷,不是工程調校能解決的。
診斷 AI 的架構原罪:LLM 沒有「明確信念狀態」
現有大型語言模型扮演 AI 醫師時,存在一個根本的結構問題:它同時負責「跟病患說話」和「估計機率」,但這兩件事的本質截然不同。診斷是在不確定性下的序列決策——每問一個問題,就根據答案更新對各種疾病的後驗機率,再決定下一步要問什麼、什麼時候可以下結論。
LLM 沒有明確的「信念狀態」(belief state)。它無法精確維護對多種疾病的後驗機率,無法用資訊理論計算「哪個問題最能消除不確定性」,也無法提供可被驗證的推理鏈。研究顯示,LLM 在臨床場景的信心校準(calibration)極差——答對和答錯時的信心表述幾乎沒有差異,且對抗性臨床問題的幻覺率偏高。更根本的問題是:LLM 的醫學知識偏向西方族群,應用在其他地區時會系統性偏差。
作者明確指出:這些不是靠更大模型能修補的工程問題,而是「讓同一個模型做所有事情」的架構缺陷。
BMBE 的三層設計:知識庫、貝葉斯引擎、LLM 感測器
BMBE 把醫療問診系統分成兩個嚴格隔離的部分:語言介面(LLM)與貝葉斯推理引擎。兩者之間只透過結構化的三元組(特徵識別符、驗證值、信心等級)溝通,沒有其他通道。
語言介面的職責只有兩件事:把病患的自然語言回答解析成結構化三元組,以及把引擎選出的下一個問題用自然語言表達出來。它從不接觸後驗機率分布,不知道目前的診斷置信度,也不做任何推斷決策。病患的原始語言文字因此從不進入語言模型做機率計算——這讓系統在設計層面天然具備隱私保護性質。
貝葉斯推理引擎掌管所有核心邏輯。知識庫儲存每種疾病對應每個症狀特徵的條件機率,以 Laplace 平滑(加一平滑)確保不出現零機率。Jeffrey's conditioning(傑弗裡條件化) 處理病患表達不確定時(「我好像有發燒」)的情況:依信心等級在硬證據與中性向量之間插值,信心映射為五級數值(very_likely=1.0 到 very_unlikely=0.05),避免把模糊回答當確定事實更新。問題選擇採用預期資訊增益(EIG,Expected Information Gain)最大化——每輪計算所有未詢問特徵的預期熵降幅,選最大的那個。停止規則設有暖機期(預設 12 輪),之後若最高後驗機率超過門檻 τ 則確診;若達硬預算(預設 20 輪)仍未跨過門檻,系統棄權(abstain),拒絕給出不確定的答案。
廉價感測器 + 貝葉斯引擎,全面超越 6 個頂尖前沿模型
在 DDXPlus 資料集(49 種疾病、314 個特徵,從 130 萬筆合成病患記錄建構)的實驗中,研究者比較了六個 BMBE 感測器變體與六個前沿獨立 LLM 醫師。
結果一目瞭然:每一個 BMBE 變體,在 DHS(Diagnostic Harmonic Score,診斷調和分數,同時衡量精準率與涵蓋率)上都超越每一個獨立 LLM 醫師。最佳感測器以最低的每 token API 成本達到最高 DHS,且這個優勢在六個不同感測器後端中一致存在——確認優勢來自架構設計本身,而非某個特定模型的品質。
成本差異同樣顯著:貝葉斯引擎的所有診斷推斷是確定性計算,API 成本為零;LLM 只負責解析與表達,可以選最廉價的模型。在匹配的模型系列內,把頂尖前沿獨立醫師換成廉價 BMBE 感測器,每 token 成本差距達 10-25 倍,DHS 卻同時提高。對稀有疾病的效果尤為明顯——獨立 LLM 因低頻條件訓練不足而表現差,而貝葉斯引擎不論疾病發生率高低,都從知識庫均等提取條件機率。
LLM 生成知識庫的公平競賽:優勢是架構給的,不是資料給的
一個顯而易見的反駁是:BMBE 表現更好,是因為它存取了從百萬筆病患記錄提煉的統計知識庫,獨立 LLM 醫師沒有這份資料。為了直接回應,研究者設計了「公平對決」實驗:改用 GPT-5.4 和 Gemini 3.1 各自生成知識庫——讓 LLM 自己估算每種疾病對每個特徵的條件機率,作為 BMBE 的知識庫。
如此一來,BMBE 和獨立 LLM 醫師使用完全相同來源的臨床知識(都來自該 LLM 的內在信念),唯一的差別只剩「知識被如何部署」:一個作為結構化知識庫搭配貝葉斯推斷,另一個作為隱性知識透過自由生成存取。結果在 GPT-5.4 和 Gemini 3.1 兩個生態系中,BMBE 搭配廉價感測器都以 10-25 倍更低的 token 成本,達到接近或超越同系列前沿獨立醫師的 Top-1 準確率。架構優勢獨立於資訊量之外,不是靠更多資料換來的。
可調門檻 τ:部署者決定「寧可放棄還是寧可犯錯」
BMBE 有一個獨立 LLM 醫師無法複製的特性:部署者可以在不重新訓練的情況下,調整診斷確定性門檻 τ,沿著精準率與涵蓋率的連續曲線移動操作點。設 τ 偏低,系統對大多數病患作出診斷,接受一定錯誤率,適合高流量基層分診。設 τ 偏高,系統只在極高置信度時確診,其餘一律棄權轉介,適合安全關鍵的轉診決策。相比之下,獨立 LLM 醫師被鎖定在一個無法控制的單點:模型內部未校準的信心決定是否確診,部署者無法調整這個平衡。
系統對溝通困難的病患同樣具有天然韌性。Jeffrey's conditioning 的機制是:病患表達不確定時(「大概」「可能」「好像」),該特徵的信心權重自動降低,對後驗機率的影響受到限制。實驗測試了「不信任型」「迷糊型」等對抗性溝通風格的模擬病患,獨立 LLM 醫師的 DHS 大幅崩潰,而 BMBE 維持穩定表現。
論文也坦誠侷限:BMBE 基於閉世界假設,只能診斷知識庫中的疾病;面對庫外情況,獨立 LLM 能靠開放性知識應對,BMBE 只能棄權。知識庫的覆蓋完整性,是部署前的關鍵評估項目。
語言歸語言、統計歸統計——把兩者混在同一模型裡,是用優點蓋住缺點,不是解決問題。