Self-Supervised Text-Vision Alignment for Automated Brain MRI Abnormality Detection: A Multicenter Study (ALIGN Study).
十萬份腦部 MRI 報告能在半小時內被 AI 精準標記,但在血管異常與腦軟化等特定病灶,報告與影像的真實一致性卻出現顯著衰退。
- BioBERT 模型在二元分類的影像測試集上取得 AUC 0.973,勝過傳統 word2vec。
- 腫瘤與中風等重大病灶在文字標籤與真實影像間具備極高一致性(AUC > 0.98)。
- 因臨床撰寫習慣,腦萎縮與血管異常的報告標籤無法忠實反映影像,AUC 大幅下滑至 0.883。
拿放射科報告直接餵給 AI 當作影像訓練標籤,可能會讓模型學到不精準的特徵——在血管異常與腦軟化症的判讀上,報告標籤與真實影像標籤的預測 AUC 差距高達 0.067。這份涵蓋超過十二萬筆腦部 MRI 的大型研究指出,即便強大的語言模型能在 30 分鐘內讀完十萬份報告並精準分類,若沒有經過「重新看片」的交叉驗證,我們根本不知道哪些疾病類別會因為醫師在打報告時的「選擇性忽略」而產生標籤偏差。
腦部 MRI 標籤自動化的語意複雜度挑戰
訓練電腦視覺模型需要數以萬計的標記影像,但要求放射科醫師手動圈選腦部 MRI 病灶是一項極度消耗人力資源的苦差事。有別於標記貓狗這種簡單的分類任務,MRI 具備極高的軟組織對比度,且常規檢查包含多種不同的脈衝序列,這代表每位病患都有大量的切面與影像細節需要檢視。為了解決這個瓶頸,研究團隊試圖訓練自然語言處理模型,直接從現有的文字報告中萃取診斷結果,並將這些結果自動對應回影像上,藉此生成可用於下游電腦視覺訓練的龐大資料庫。
檢視資料庫的本質,腦部 MRI 的報告在語意上遠比其他影像檢查更為錯綜複雜。作者從 Table 1 中比對了不同影像形態的文本庫,發現本研究收集的 126,556 份腦部 MRI 報告中,包含了多達 205,048 個獨特詞彙,其 Yule I 指數為 79、Type-token-ratio 高達 0.019。相較之下,規模相近的胸部 X 光報告資料庫,其獨特詞彙僅有 6,481 個,Type-token-ratio 只有 0.002。這種高度複雜的詞彙多樣性,歸因於神經放射科醫師常在報告中進行細緻的解剖描述與鑑別診斷,使得傳統的文字探勘技術難以勝任這項標記任務。
為了克服複雜語意的障礙,本研究採用了 BioBERT(利用海量醫學文獻預訓練的語言模型) 作為基底架構。這個模型已經閱讀過英文維基百科與數十億字的 PubMed 醫學文獻,因此具備強大的語境理解能力。研究團隊更進一步在架構中加入了自訂的注意力機制網路,讓模型能夠辨識並加權對於診斷分類最具影響力的關鍵字。這種做法特別適合處理包含「遠距離否定」的長句,例如「未見明顯局部擴散受限以提示急性中風的跡象」,確保模型不會僅因為看到「中風」兩字就給予陽性標籤。
| 檢查種類 | 報告總數 | 獨特詞彙量 | Type-token-ratio |
|---|---|---|---|
| 腦部 MRI | 126,556 | 205,048 | 0.019 |
| 腦部 CT | 96,303 | 145,257 | 0.011 |
| 胸部 X 光 | 160,861 | 6,481 | 0.002 |
腦部 MRI 報告具備極高的詞彙多樣性
破十萬例的資料庫與雙重黃金標準設計
資料來源涵蓋了 2008 年至 2019 年間在英國國王學院醫院進行的 126,556 筆成人腦部 MRI 檢查,並搭配了由 17 位具備顧問級資格的神經放射科專家所撰寫的非結構化報告。為了評估模型對外部醫院報告的泛化能力,團隊還額外從蓋伊和聖托馬斯國民保健署信託基金會取得了 500 份報告。由於這 17 位醫師的報告風格迥異,有些大量使用語音辨識軟體轉錄,有些甚至會混入病史與給臨床醫師的處置建議,這為演算法的訓練提供了非常豐富的異質性。
建立可靠的測試集是這項研究最關鍵的基石,團隊因此設計了「報告標籤」與「影像標籤」兩套獨立的黃金標準。在第一階段,多位神經放射科醫師手動閱讀了 3,000 份報告以建立二元分類(正常或異常),並閱讀另外 2,000 份報告以標記七種次專科異常類別,包含急性中風、腫瘤、萎縮、血管異常、小血管疾病、白質發炎與腦軟化症。值得注意的是,即便有明確的編碼規則,這群專家在初次標記時的 Fleiss kappa 值落在 0.79 到 0.94 之間,顯示連人類專家在閱讀同一份報告時都會出現見解分歧,必須仰賴第三或第四位專家進行共識決議。
將目光轉向第二套黃金標準,這是本篇研究跳脫過往文獻的獨到之處。過去的研究大多只驗證模型「看報告」的準確度,但這項計畫特別隨機抽出了 950 筆 MRI 檢查,要求專家「直接重新審視影像」來給予標籤,而不是只看文字。這 950 筆資料組成了 250 例的二元分類影像標籤測試集,以及 7 組各 100 例的次專科影像標籤測試集。透過這套嚴格的獨立測試,研究團隊得已檢驗文字報告是否真的能夠毫無誤差地代表真實的影像發現。
Table 3 與 Figure 3 的正常與否二元分類表現
針對判斷 MRI 是否正常的二元分類器,模型展現了極高的準確度,並且在訓練與評估過程中充分利用了 Adam optimizer(自適應調整學習率的最佳化演算法) 來優化權重。Table 3 清楚列出,當模型以手動標記的「報告標籤」進行測試時(n=600),其 AUC-ROC 達到了 0.991,敏感度為 96.5%,特異度為 95.3%。這個數字證實了利用預訓練 transformer 架構來提取非結構化醫學文本的結論是極度可靠的。更重要的是,當模型面對外部醫院的 500 份報告時,其表現幾乎沒有衰退,AUC 僅微幅下降 0.001,證明模型沒有過度擬合單一機構的用語習慣。
若將基準切換至 word2vec(將單詞轉為固定向量的傳統自然語言技術) 模型,其表現明顯遜色。在 Table 3 之中,採用 word2vec 結合 N-gram 的邏輯斯迴歸模型在報告標籤測試集的 AUC 僅有 0.969,在影像標籤測試集的 AUC 更掉到 0.935。研究團隊透過 t-SNE(將高維數據降維至二維的視覺化算法) 繪製了這兩者的特徵分佈圖,在 Figure 4 中可以看見,BioBERT 產生的特徵向量能將正常與異常報告清晰地分為兩個群集,而 word2vec 的分佈則出現了大量重疊,這再次凸顯了語境感知能力在處理複雜放射科報告中的絕對優勢。
這組二元分類器在面對「影像標籤」測試集(n=250)時,依然維持了強大的預測能力。測試結果顯示 AUC 為 0.973,與報告標籤相比僅出現了 0.014 的微小差異。在這個最嚴苛的檢驗關卡中,模型對於真實影像異常的敏感度達到了 91.4%,特異度達到 92.1%。這意味著,如果在臨床研究中單純需要區分出正常與異常的腦部 MRI 檢查,直接利用這個 NLP 模型來大規模標記資料庫是完全可行且具備高準確性的做法。
Figure 6 與 Table 4 點出的次群組影像與報告偏差
然而,當任務進入到更細緻的七大次專科分類時,數據的樣貌開始出現顯著變化。Table 4 提供了各個疾病類別在「報告標籤」(n=400)與「影像標籤」(n=100)測試集上的詳細表現。若單看模型閱讀報告的能力,全部七種類別在報告測試集上的 AUC 都高於 0.95,表現無可挑剔。但當研究人員將模型的預測結果與專家親自看影像的結果對齊時,其中四個類別(急性中風、腫瘤、小血管疾病、白質發炎)依舊保持優異,AUC 下降幅度小於 0.02;例如腫瘤類別在影像測試集上的 AUC 為 0.982,敏感度高達 94.3%。
真正的問題出現在另外三個類別:腦部萎縮、腦軟化症與血管異常。根據 Figure 6 與 Table 4 的數據,這三個類別在影像測試集上遭遇了顯著的滑鐵盧。腦部萎縮的 AUC 從 0.970 掉到 0.937;腦軟化症從 0.977 掉到 0.922;而血管異常的衰退最為嚴重,AUC 從 0.956 大幅下滑至 0.883,特異度更是只剩下 82.5%。這個數據直接揭示了一個重要的臨床事實:文字報告本身在這些特定的疾病類別上,無法忠實且全面地反映影像上的真實狀況。
為什麼會出現這種情形?作者在討論段落深入剖析了放射科醫師的日常作業習慣。首先是「滿意度搜尋」的妥協,當畫面上存在巨大腫瘤或明顯出血等高致命性病灶時,醫師往往會忽略撰寫輕微的微小出血(血管類別)或舊有引流管造成的局部組織破壞(腦軟化症)。其次是針對臨床問題的「客製化報告」,如果是神經內科轉診來評估失智症,醫師會仔細量化並描述腦部萎縮的程度;但若病患是因為動脈瘤破裂由血管神經外科收治,報告的焦點自然會集中在血管解剖結構上,而輕描淡寫或省略對腦實質體積的描述。
部分疾病在影像測試集的準確度出現衰退
標籤雜訊的適用範圍與模型落地應用建議
由於報告並未鉅細靡遺地記載所有次要發現,依賴文字報告萃取的標籤必定會帶有一定程度的「標籤雜訊」。儘管如此,本研究所產生的雜訊比例仍明顯低於許多知名的開放電腦視覺資料庫(例如 ImageNet 的錯誤率估計高達 10%)。針對下游的電腦視覺深度學習,少量的錯誤標籤在龐大的資料庫稀釋下,對模型最終表現的負面影響通常是有限的。團隊在完成模型訓練後,直接將其應用於剩下的 121,556 筆 MRI 檢查,結果在不到 30 分鐘內就完成了所有的標記工作,相比於過去可能需要耗費數年的手工標記,展現了壓倒性的效率優勢。
在臨床實務與後續應用的考量上,本研究也坦承了單一醫學中心訓練資料的限制,儘管包含了 17 位專家的報告且經過外部醫院驗證,但依然可能無法涵蓋所有罕見神經系統疾病的用語。對於正準備建立大型影像資料庫的放射科團隊而言,這篇論文提供了明確的指引:利用 NLP 自動處理標籤絕對可行,但必須根據你要訓練的「病灶種類」來決定信任程度。如果你要找的是中風、腫瘤這類只要存在就不會被漏寫的重大病灶,NLP 標籤非常可靠;但若你要做的是腦萎縮或腦軟化症的自動偵測,投入人力重新審查影像來建構黃金標準將是不可省略的步驟。
想要用 NLP 撈報告幫十萬筆 MRI 自動打標籤?記得先挑對病種:抓中風與腫瘤可以直接上線,但若要訓練腦萎縮或微小血管病變的 AI,請乖乖找醫師重新看片,別全盤信任原始報告。