Intraparotid Facial Nerve Segmentation: A Reproducibility Study of Manual Segmentation on Neurographic Sequences [HEAD AND NECK IMAGING]

Medrano-Martorell, S., Pariente, J. C., Rodriguez Alvarez, Y., Richart Sierra, V., Morales Rosa, A., Massuet Vilamajor, A., Cuesta Gonzalez, F. J., Costa Gonzalez, J. M., Bargallo, N.

View Original ↗
AI 導讀 academic MR 重要性 4/5

腮腺神經 MR 圈選不靠年資!研究證實 VFA-TSE 序列能將主幹誤差壓至 1.26 毫米,但周邊分支仍是專家盲區。

  • 神經主幹圈選具高度重現性,平均成對誤差僅 1.58 毫米,但上下分支誤差飆升至 3.2 毫米以上。
  • 對比增強 VFA-TSE 序列表現優於 DESS 序列,特別在主幹描繪能將誤差壓縮至 1.26 毫米。
  • 資深主治與住院醫師的圈選誤差無顯著差異,證明只要有標準化流程,年資不影響空間幾何判斷。

我們總以為資深主治醫師畫的神經路徑比較準,但在腮腺顏面神經的 MR 圈選上,住院醫師與專家的圈選誤差其實沒有顯著差異。這篇 AJNR 研究指出,只要給定標準化流程,即使是 7 名受試者的小樣本,對比增強 VFA-TSE 序列在神經主幹的圈選誤差能壓到僅 1.26 毫米,顛覆了我們對高難度神經描繪必依賴年資的刻板印象。

腮腺手術的神經保衛戰與 1.58 毫米的主幹防線

放射科在頭頸外科術前評估的角色,正從單純的「腫瘤定性」快速轉向「精準的手術地圖繪製」。腮腺切除手術最令人畏懼的併發症,莫過於非預期性的顏面神經損傷,這會直接導致患者永久性面癱、眼瞼閉合不全與嘴角下垂。傳統上,耳鼻喉科與口腔顎面外科醫師極度依賴解剖標記(如軟骨指標或二腹肌後腹)來尋找神經主幹,但當腫瘤體積龐大或位置深層時,解剖構造往往被嚴重推擠變形。利用進階的 MR neurography(能凸顯神經束的磁振造影)進行術前神經路徑描繪,理論上能大幅降低這類醫源性損傷的風險。

然而,在真正將這些影像數據交給外科醫師,或是餵給 AI 進行自動化模型訓練前,我們必須先回答一個根本的科學問題:放射科醫師手動圈選的結果到底可不可靠?這篇來自巴塞隆納醫院團隊的研究,正是為了解決這個基礎卻至關重要的信度問題。研究團隊想知道,在沒有絕對黃金標準(如精細病理切片或術中即時 3D 座標紀錄)的情況下,不同醫師看著同一組神經造影影像,畫出來的三維神經走向究竟會差多少。如果連人類專家的共識度都很低,那後續的 3D 列印術前模擬,甚至近年熱門的 nnU-Net(自動調架構的醫學影像切割框架)等演算法訓練,都會建立在極度脆弱且不可靠的基礎上。

從臨床實務的角度仔細檢視,這項研究的價值在於確立了「我們肉眼與手部操作能做到多準」的物理基線。我們經常在常規 MRI 報告中運用質性描述,告知臨床醫師神經疑似被腫瘤推擠或包覆,但這種文字敘述對顯微外科導航的實質幫助極其有限。透過 3D Slicer(開源的三維醫學影像處理與視覺化軟體)進行連續體素(voxel)級別的精細圈選,研究證明顏面神經主幹的平均成對誤差可以穩定控制在 1.58 毫米以內。這個微小的數字對於一台要在狹窄且充滿出血風險空間內剝離腫瘤的手術來說,已經具備了實質的參考價值,也讓放射科的術前報告有機會從「純文字敘述」正式跨入「可互動的 3D 空間座標」領域。

7 名受試者與 4 位判讀者的 Figure 1 實驗設計

在整體研究設計上,作者挑選了 7 名患有單側良性腮腺腫瘤的患者。雖然受試者樣本數在直覺上偏少,但考量到這是一項高密度的影像重現性與幾何學研究,每位患者的影像都包含了雙側(患側腫瘤與對側健康腺體)的腮腺結構,且需要進行多輪的三維圈選,實際產生的空間數據點相當龐大。影像擷取特別採用了兩種截然不同的 3D 神經造影序列進行成對對比:第一種是 DESS(能同時捕捉兩種回訊以提供高解析液體訊號的穩態序列),第二種則是施打含釓顯影劑後的 T1 VFA-TSE(利用可變翻轉角維持長回訊並壓制背景的快速自旋序列)。

為了全面評估不同經驗層級的重現性,讀片團隊由兩位資深的頭頸放射科主治醫師與兩位放射科住院醫師共同組成。這四位判讀者在完全獨立、不知曉他人結果的盲測狀態下,使用影像軟體對腫瘤側與健康側的腮腺內顏面神經進行手動體素分割。他們的操作規範必須從莖乳突孔(stylomastoid foramen)出口作為絕對起點,一路向遠端描繪神經主幹(trunk),並盡可能在鵝足(pes anserinus)分叉處向下追蹤至上分支(superior division)與下分支(inferior division)。這種設計不僅嚴苛考驗了兩種 MR 序列的對比度極限,也直接測試了人類視覺系統對纖細神經束的追蹤天花板。

在統計分析的處理上,最大的難點在於「真實答案(ground truth)」在活體影像中的缺失。既然沒有人能保證哪一條像素軌跡才是絕對正確的神經解剖位置,作者巧妙地採用了平均成對誤差(mean pairwise error)來量化空間一致性。系統會精確計算 A 醫師與 B 醫師畫出的 3D 軌跡之間的最短歐式距離,以此類推算出所有兩兩配對的平均偏差數值。若細看原稿中 Figure 1 的流程圖與數據分布,研究還特別針對神經的不同解剖分段、影像序列的物理特性、腺體是否長腫瘤,以及判讀者的年資進行了 Wilcoxon 符號秩檢定,並使用了極度嚴格的 Holm–Bonferroni 校正來控制多重檢定產生的偽陽性率。

Table 2 呈現的量化數據與 VFA-TSE 序列的 1.26 毫米優勢

進入最核心的量化數據檢視,Table 2 清楚列出了不同解剖分段的平均成對圈選誤差,展現出高度的解剖位置依賴性。顏面神經主幹的表現最為穩定且具備臨床可行性,平均成對誤差僅為 1.58 毫米 [95% CI: 1.38–2.04]。然而,一旦神經進入分叉點之後,空間一致性便出現了災難性的斷崖式下降。下分支的圈選誤差大幅放大至 3.20 毫米 [95% CI: 2.94–4.50],而上分支的誤差更是飆高到 3.58 毫米 [95% CI: 2.29–5.99]。這組嚴謹的數據清楚表明,目前的手動圈選技術對於直徑較粗、解剖位置相對固定的主幹有極高把握,但對於穿梭在緻密腺體組織中的微小周邊分支,各個醫師的空間判斷存在著無法忽視的巨大分歧。

除了解剖位置,影像序列的物理特性選擇對這個誤差數字有著決定性的影響。研究數據明確顯示,施打顯影劑的 VFA-TSE 序列在整體圈選誤差的表現上,實質優於未打藥的 DESS 序列。特別是在神經主幹的精細描繪上,VFA-TSE 成功將成對誤差壓縮到了驚人的 1.26 毫米 [95% CI: 0.84–2.10],相比之下,DESS 序列的誤差則是較寬鬆的 1.85 毫米 [95% CI: 1.55–2.37]。VFA-TSE 透過顯影劑大幅增強了腫瘤與周邊靜脈叢的對比,配合黑血技術與脂肪抑制,讓未顯影的神經束在明亮的背景中形成極度鮮明的「管狀訊號空洞」,這種對比機制顯然比單純依賴 T2/T1 混合權重的 DESS 序列更能讓判讀者在視覺上達成共識。

儘管 VFA-TSE 與 DESS 在主幹誤差的絕對數值上有接近 0.6 毫米的實質落差,但經過嚴格的 Holm–Bonferroni 多重測試校正懲罰後,這項差異在統計學的 p 值上並未正式跨越顯著門檻。不過,若從外科醫師臨床實用的視角出發,這 0.6 毫米的物理差距在微血管與神經緊密交錯的腮腺深層,往往就是手術刀切斷與保留神經的致命關鍵。因此,單看 p 值可能會低估了 VFA-TSE 在實際閱片體驗上帶來的穩定感與診斷信心,這也是放射科醫師在選擇 protocol 時必須納入考量的實務層面。

不同 MR 序列在神經主幹的圈選誤差比較
影像序列平均成對誤差 (mm)95% 信賴區間
VFA-TSE (對比增強)1.260.84 – 2.10
DESS (雙回訊穩態)1.851.55 – 2.37

對比增強 VFA-TSE 在視覺共識上具備實質優勢

腫瘤推擠的 Figure 3 變異與年資不敏感的次群組分析

除了神經本身的解剖分段與造影影像序列,腫瘤實體的存在與否也是干擾判讀一致性的重大變數。若仔細觀察 Figure 3 繪製的神經路徑可靠度剖面圖,可以發現當神經走向逐漸靠近腫瘤邊緣時,圈選誤差的曲線會出現明顯的突起波峰。在患側腺體中,神經片段無可避免地受到腫瘤實體的物理性推擠、周邊微小水腫的訊號干擾,甚至是下顎後靜脈(retromandibular vein)受壓迫後的血流偽影掩蓋,導致該區域的觀察者間變異度大幅飆升。相反地,在對側健康的腮腺中,由於具備完整且均勻的脂肪背景襯托,神經走向的空間共識度則呈現相對平穩的低誤差狀態。

然而,這項重現性研究中最違反醫界直覺的次群組發現,莫過於「判讀者年資」對最終圈選結果的影響微乎其微。我們通常理所當然地預期,擁有多年頭頸部複雜影像判讀經驗的資深主治醫師,在這種極度仰賴三維解剖認知的艱難任務中,表現會徹底碾壓年輕的住院醫師。但嚴密的統計結果卻無情地顯示,資深專家與受訓中醫師之間的成對誤差並沒有任何統計學上的顯著差異。這意味著在單純的「神經幾何軌跡追蹤」這項任務上,只要給予明確的解剖起點並建立標準化的軟體操作指引,年輕醫師也能完全達到與權威專家同等水準的空間一致性。

這個「年資不敏感」的獨特現象背後其實隱含著極具啟發性的雙重意義。樂觀來看,這代表科內不需要耗費極度昂貴的主治醫師時間來進行繁瑣的術前神經圈選,完全可以放心地將這項前置任務下放給住院醫師或經過專門培訓的放射師;甚至未來在大量標註 AI 訓練資料時,標註者的人力門檻可以被安全地適度降低。但從另一個嚴峻的物理角度剖析,這也強烈暗示了當前 3T 磁振造影在空間解析度上已經撞到了天花板——當神經末梢細到低於體積像素尺寸,並產生嚴重的容積平均效應(partial volume effect)時,不論你有 20 年經驗還是 2 年經驗,大家本質上都是在對著模糊的灰色像素進行合理的瞎猜,此時再淵博的解剖知識也無法憑空彌補硬體層面的資訊缺失。

顏面神經不同解剖分段的圈選誤差

一旦越過分叉點,專家間的空間判斷分歧大幅增加

3D Slicer 的應用侷限與自動化分割的未來藍圖

作者在文末的討論段落中,非常坦誠地剖析了這項影像學研究的幾個關鍵限制。首先,7 名病患的樣本數在統計檢定效力上確實偏小,且收案對象全部都是邊界相對清晰的良性腫瘤(如多形性腺瘤或華生氏腫瘤)。臨床上遇到惡性腫瘤時,往往會伴隨神經周圍侵犯(perineural invasion)、強烈的促結締組織增生反應(desmoplastic reaction)或更為嚴重的周圍組織發炎水腫,這些複雜的病理變化會讓神經的解剖邊界變得極度難以辨識。如果在侵襲性惡性腫瘤的案例中進行相同的重現性測試,神經主幹的圈選誤差極有可能會輕易突破目前 1.58 毫米的樂觀防線,這是我們在解讀數據時必須保持的警戒。

其次,使用 3D Slicer 進行全手動的體素描繪,是一項極度耗時且容易引發視覺疲勞的勞力密集工作。在研究環境中,每位病患的單側神經動輒需要判讀者花費數十分鐘進行逐切面(slice-by-slice)的來回微調與確認。這在目前以量計價、報告堆積如山且節奏極度緊湊的台灣放射科日常中,幾乎是不可能落實成為每日常規流程的。此外,病患在漫長的 3D 高解析度掃描過程中產生的微小吞嚥或呼吸運動偽影,也會對這種亞毫米級別的測量造成不可逆的基礎誤差。

從這篇研究的嚴謹數據延伸到我們的日常臨床實務,放射科醫師可以立刻得出幾個具體的操作與溝通準則。當耳鼻喉科或整形外科團隊要求我們在術前精細評估顏面神經與腮腺腫瘤的立體關係時,如果院內的機台有能力執行 MR neurography,我們應該強烈建議並優先使用施打顯影劑的 VFA-TSE 序列,以獲取最穩定的主幹追蹤品質。同時,我們在撰寫影像報告時必須保持科學的誠實:對於神經主幹的定位,我們可以給予外科醫師相當肯定的空間座標與距離推估;但對於鵝足分叉後的上、下分支等周圍網絡,我們必須在報告中明確註記影像解析度的物理限制,避免給出過度自信的誤導性結論,從而引發不必要的醫療糾紛。

這篇探討手動圈選重現性研究的最終宏觀目的,其實是為即將到來的 AI 自動化時代鋪平道路。既然我們已經用數據證明了,人類在標準化流程下對神經主幹的標註是具備高度一致性與重現性的,這批高品質、低誤差的專家標註數據,就能成為未來訓練三維卷積神經網絡或 Transformer 模型的完美黃金養分。未來的理想臨床場景將是:患者在掃描完 VFA-TSE 序列後,AI 模型已在後台伺服器自動完成耗時的體素分割,放射科醫師只需花三十秒鐘確認神經主幹的 3D 軌跡沒有被標偏,就能一鍵將精美模型傳送給外科醫師的擴增實境(AR)導航眼鏡。在此之前,深刻理解我們肉眼的誤差極限與序列的優劣,正是通往精準外科醫療必經的陣痛期。

下次面對腮腺腫瘤的術前 MR,勇敢用對比增強 VFA-TSE 序列定位顏面神經主幹(成對誤差僅 1.2 毫米),但千萬別對周邊細小分支的確切位置打包票,那是連次專科專家都會迷航的影像盲區。

Abstract

BACKGROUND AND PURPOSE:Preoperative delineation of intraparotid facial nerve using advanced MR neurography may aid surgical planning of parotid tumors, reducing complications. However, the reliability of manual segmentation for depicting the nerve pathway has not been extensively investigated. This study aimed to assess the reproducibility of manual segmentation of the intraparotid facial nerve on neurographic MRI sequences.MATERIALS AND METHODS:Neurographic MR datasets from 7 patients with unilateral benign parotid tumors were analyzed using 2 imaging sequences: double-echo steady-state (DESS) and T1 variable-flip-angle turbo spin-echo (VFA-TSE) with gadolinium. Two faculty head and neck radiologists and two radiology trainees independently segmented the intraparotid facial nerve in both tumorous and healthy glands using 3D Slicer. Given the absence of a gold standard, segmentation reliability was quantified through mean pairwise error, interobserver segmentation agreement for anatomical nerve branches, and reliability profiles along the nerve course. Comparisons by imaging sequence, gland status, and radiologist experience were performed using Wilcoxon signed-rank tests with Holm–Bonferroni correction.RESULTS:The mean pairwise error was 1.58 [95% CI: 1.38–2.04] mm for the trunk, 3.20 [95% CI: 2.94–4.50] mm for the inferior division, and 3.58 [95% CI: 2.29–5.99] mm for the superior division. The VFA-TSE sequence showed lower pairwise segmentation errors than the DESS sequence, particularly for the trunk (1.26 [95% CI: 0.84–2.10] mm vs 1.85 [95% CI: 1.55–2.37] mm), although no comparisons reached statistical significance after correction for multiple testing. Nerve segments near tumors exhibited increased segmentation errors and greater interobserver variability. No significant differences were observed between radiologists of differing experience. The trunk showed high interobserver agreement, whereas peripheral branches displayed lower consistency, more frequent non-segmentation and increased subdivision instances.CONCLUSIONS:Manual segmentation of the intraparotid facial nerve is reproducible for the trunk but remains challenging for peripheral branches. VFA-TSE may offer an advantage over DESS for trunk delineation, while radiologist experience level does not appear to limit segmentation reliability. Standardized segmentation protocols can mitigate the impact of prior experience, but imaging sequence choice may influence segmentation reproducibility. Further research should refine neurographic sequence and explore automated segmentation techniques to improve consistency in presurgical planning of parotid tumors.