以 10-25 倍更低成本，廉價語言模型搭配貝葉斯引擎全面超越頂尖 LLM 獨立問診，優勢來自架構分離。

AI 導讀 technology AI 重要性 4/5

BMBE 把 LLM 限制為純語言感測器，所有機率推斷由貝葉斯引擎完成，患者資料從不進入 LLM。
廉價感測器搭配貝葉斯引擎，token 成本低 10-25 倍，診斷指標 DHS 仍全面超越頂尖前沿模型。
可調門檻 τ 讓部署者在高流量分診與零容錯轉診之間連續切換，無需重新訓練任何模型。

用 10-25 倍更低成本搭配廉價語言模型，仍能超越頂尖 LLM 獨立問診——這不是模型更強，而是架構更對。EPFL 的 BMBE（Bayesian Medical Belief Engine，貝葉斯醫療信念引擎）論點直接：語言理解與機率推斷從設計層面就不該混在同一個模型裡，把兩件事塞給同一個系統，是架構缺陷，不是工程調校能解決的。

診斷 AI 的架構原罪：LLM 沒有「明確信念狀態」

現有大型語言模型扮演 AI 醫師時，存在一個根本的結構問題：它同時負責「跟病患說話」和「估計機率」，但這兩件事的本質截然不同。診斷是在不確定性下的序列決策——每問一個問題，就根據答案更新對各種疾病的後驗機率，再決定下一步要問什麼、什麼時候可以下結論。

LLM 沒有明確的「信念狀態」（belief state）。它無法精確維護對多種疾病的後驗機率，無法用資訊理論計算「哪個問題最能消除不確定性」，也無法提供可被驗證的推理鏈。研究顯示，LLM 在臨床場景的信心校準（calibration）極差——答對和答錯時的信心表述幾乎沒有差異，且對抗性臨床問題的幻覺率偏高。更根本的問題是：LLM 的醫學知識偏向西方族群，應用在其他地區時會系統性偏差。

作者明確指出：這些不是靠更大模型能修補的工程問題，而是「讓同一個模型做所有事情」的架構缺陷。

BMBE 的三層設計：知識庫、貝葉斯引擎、LLM 感測器

BMBE 把醫療問診系統分成兩個嚴格隔離的部分：語言介面（LLM）與貝葉斯推理引擎。兩者之間只透過結構化的三元組（特徵識別符、驗證值、信心等級）溝通，沒有其他通道。

語言介面的職責只有兩件事：把病患的自然語言回答解析成結構化三元組，以及把引擎選出的下一個問題用自然語言表達出來。它從不接觸後驗機率分布，不知道目前的診斷置信度，也不做任何推斷決策。病患的原始語言文字因此從不進入語言模型做機率計算——這讓系統在設計層面天然具備隱私保護性質。

貝葉斯推理引擎掌管所有核心邏輯。知識庫儲存每種疾病對應每個症狀特徵的條件機率，以 Laplace 平滑（加一平滑）確保不出現零機率。Jeffrey's conditioning（傑弗裡條件化） 處理病患表達不確定時（「我好像有發燒」）的情況：依信心等級在硬證據與中性向量之間插值，信心映射為五級數值（very_likely=1.0 到 very_unlikely=0.05），避免把模糊回答當確定事實更新。問題選擇採用預期資訊增益（EIG，Expected Information Gain）最大化——每輪計算所有未詢問特徵的預期熵降幅，選最大的那個。停止規則設有暖機期（預設 12 輪），之後若最高後驗機率超過門檻 τ 則確診；若達硬預算（預設 20 輪）仍未跨過門檻，系統棄權（abstain），拒絕給出不確定的答案。

廉價感測器 + 貝葉斯引擎，全面超越 6 個頂尖前沿模型

在 DDXPlus 資料集（49 種疾病、314 個特徵，從 130 萬筆合成病患記錄建構）的實驗中，研究者比較了六個 BMBE 感測器變體與六個前沿獨立 LLM 醫師。

結果一目瞭然：每一個 BMBE 變體，在 DHS（Diagnostic Harmonic Score，診斷調和分數，同時衡量精準率與涵蓋率）上都超越每一個獨立 LLM 醫師。最佳感測器以最低的每 token API 成本達到最高 DHS，且這個優勢在六個不同感測器後端中一致存在——確認優勢來自架構設計本身，而非某個特定模型的品質。

成本差異同樣顯著：貝葉斯引擎的所有診斷推斷是確定性計算，API 成本為零；LLM 只負責解析與表達，可以選最廉價的模型。在匹配的模型系列內，把頂尖前沿獨立醫師換成廉價 BMBE 感測器，每 token 成本差距達 10-25 倍，DHS 卻同時提高。對稀有疾病的效果尤為明顯——獨立 LLM 因低頻條件訓練不足而表現差，而貝葉斯引擎不論疾病發生率高低，都從知識庫均等提取條件機率。

LLM 生成知識庫的公平競賽：優勢是架構給的，不是資料給的

一個顯而易見的反駁是：BMBE 表現更好，是因為它存取了從百萬筆病患記錄提煉的統計知識庫，獨立 LLM 醫師沒有這份資料。為了直接回應，研究者設計了「公平對決」實驗：改用 GPT-5.4 和 Gemini 3.1 各自生成知識庫——讓 LLM 自己估算每種疾病對每個特徵的條件機率，作為 BMBE 的知識庫。

如此一來，BMBE 和獨立 LLM 醫師使用完全相同來源的臨床知識（都來自該 LLM 的內在信念），唯一的差別只剩「知識被如何部署」：一個作為結構化知識庫搭配貝葉斯推斷，另一個作為隱性知識透過自由生成存取。結果在 GPT-5.4 和 Gemini 3.1 兩個生態系中，BMBE 搭配廉價感測器都以 10-25 倍更低的 token 成本，達到接近或超越同系列前沿獨立醫師的 Top-1 準確率。架構優勢獨立於資訊量之外，不是靠更多資料換來的。

可調門檻 τ：部署者決定「寧可放棄還是寧可犯錯」

BMBE 有一個獨立 LLM 醫師無法複製的特性：部署者可以在不重新訓練的情況下，調整診斷確定性門檻 τ，沿著精準率與涵蓋率的連續曲線移動操作點。設 τ 偏低，系統對大多數病患作出診斷，接受一定錯誤率，適合高流量基層分診。設 τ 偏高，系統只在極高置信度時確診，其餘一律棄權轉介，適合安全關鍵的轉診決策。相比之下，獨立 LLM 醫師被鎖定在一個無法控制的單點：模型內部未校準的信心決定是否確診，部署者無法調整這個平衡。

系統對溝通困難的病患同樣具有天然韌性。Jeffrey's conditioning 的機制是：病患表達不確定時（「大概」「可能」「好像」），該特徵的信心權重自動降低，對後驗機率的影響受到限制。實驗測試了「不信任型」「迷糊型」等對抗性溝通風格的模擬病患，獨立 LLM 醫師的 DHS 大幅崩潰，而 BMBE 維持穩定表現。

論文也坦誠侷限：BMBE 基於閉世界假設，只能診斷知識庫中的疾病；面對庫外情況，獨立 LLM 能靠開放性知識應對，BMBE 只能棄權。知識庫的覆蓋完整性，是部署前的關鍵評估項目。

語言歸語言、統計歸統計——把兩者混在同一模型裡，是用優點蓋住缺點，不是解決問題。

Abstract

Large language models are increasingly deployed as autonomous diagnostic agents, yet they conflate two fundamentally different capabilities: natural-language communication and probabilistic reasoning. We argue that this conflation is an architectural flaw, not an engineering shortcoming. We introduce BMBE (Bayesian Medical Belief Engine), a modular diagnostic dialogue framework that enforces a strict separation between language and reasoning: an LLM serves only as a sensor, parsing patient utterances into structured evidence and verbalising questions, while all diagnostic inference resides in a deterministic, auditable Bayesian engine. Because patient data never enters the LLM, the architecture is private by construction; because the statistical backend is a standalone module, it can be replaced per target population without retraining. This separation yields three properties no autonomous LLM can offer: calibrated selective diagnosis with a continuously adjustable accuracy-coverage tradeoff, a statistical separation gap where even a cheap sensor paired with the engine outperforms a frontier standalone model from the same family at a fraction of the cost, and robustness to adversarial patient communication styles that cause standalone doctors to collapse. We validate across empirical and LLM-generated knowledge bases against frontier LLMs, confirming the advantage is architectural, not informational.

Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine

診斷 AI 的架構原罪：LLM 沒有「明確信念狀態」

BMBE 的三層設計：知識庫、貝葉斯引擎、LLM 感測器

廉價感測器 + 貝葉斯引擎，全面超越 6 個頂尖前沿模型

LLM 生成知識庫的公平競賽：優勢是架構給的，不是資料給的

可調門檻 τ：部署者決定「寧可放棄還是寧可犯錯」

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

iTARFlow 透過多尺度噪音訓練，ImageNet-64 FID 達 1.68，正規化流縮近擴散模型