US-derived Pediatric Kidney Length and Volume Percentiles by Age: A Big Data Approach.

Viteri Bernarda, Morales-Tisnés Tatiana, Logan Joey, Zee Jarcy, Kaplan Summer, et al.

View Original ↗
AI 導讀 academic AI 重要性 4/5

單一醫學中心的大數據準嗎?102萬兒童世代透過GIS對比社區人口,揭露雖然種族與年齡分布嚴重偏移,但特定傳染病預測率仍精準對齊真實世界。

  • 單一醫療網的青少年占比僅 24%,遠低於社區真實的 39.7%,開發骨齡或發育相關 AI 需留意此嚴重抽樣偏誤。
  • 即便排除就醫距離與社區收入等干擾,醫療網內的非裔與低收入戶比例依舊是社區對照組的將近 2 倍。
  • 只要流失的樣本特徵並非目標疾病的高風險因子(如西裔與肺炎鏈球菌),單一醫院數據仍可提供精準的區域盛行率預測。

拿單一醫學中心的病歷資料去推估整個都會區的疾病盛行率,往往被認為是充滿抽樣偏誤的學術大忌。但這項涵蓋費城都會區 102 萬名兒童的大數據分析打破了這個預設立場:即便院內就診族群的低收入戶比例與特定族裔顯著偏高,當我們實際拿來預測侵襲性肺炎鏈球菌的感染率時,院內推估值為每十萬人 18 例,與真實社區背景值的 10 例相比,IRR 1.69 且不具統計顯著差異。這意味著單一醫療體系的資料,在特定條件下足以充當廣泛社區的疫情或流行病學雷達。

單一醫療網數據能否代表百萬都會區人口?

以人口為基礎的傳染病監測,對於流行病學調查與公衛規劃至關重要。現行的資料來源多半依賴醫師的自願性通報、衛生部門的強制通報,或是特定哨點醫療機構的網絡。然而,要取得準確的人口抽樣非常困難,特別是那些症狀輕微、通常不會到急診或住院接受高階影像檢查的常見傳染病。隨著初級照護網絡與 EMR(電子病歷,記錄患者就診細節與人口統計學特徵的數位系統)的普及,單一大型醫療體系是否有潛力成為區域性的監測中樞,引起了廣泛討論。

放射科醫師在建立疾病預測模型或訓練人工智慧時,經常面臨相同的挑戰。我們往往只能取得自家醫院 PACS(醫療影像儲傳系統)裡的資料,並預設這些影像特徵與疾病盛行率能代表整個社區。但實際上,到特定醫療網就醫的病患,是否真的是母體社區的無偏誤縮影?過去的文獻曾指出,某些醫療網可能會低估來自弱勢地區的病患。

為了驗證這個假設,本研究團隊以美國費城兒童醫院(CHOP)的初級照護網絡為核心,進行了一項橫斷面研究。作者們將院內的就診族群特徵,與費城都會區五個郡的整體兒童人口進行比對。這項研究不只停留在單純的比例計算,更進一步探討了街區層級的細微差異,以及這些差異是否會實質影響我們對特定傳染病盛行率的判斷。

從研究設計的角度來看,這提供了評估醫院資料庫代表性的標準作業流程。如果一個醫療網絡的病患特徵與母體群體存在巨大偏差,那麼從該系統產出的任何流行病學結論,或是訓練出來的影像輔助診斷工具,在推廣到社區基層診所時,就可能面臨嚴重的效能衰退。

運用 GIS 系統與 102 萬名兒童推算的對照世代

研究團隊蒐集了 2004 年 11 月至 2006 年 10 月間,曾於 CHOP 初級照護網絡就診且居住於費城都會區(包含 Bucks, Chester, Delaware, Montgomery, 與 Philadelphia 等五個郡)的 127,217 名兒童資料。為了取得非該醫療網(Non-network)的對照組社區人口數據,作者使用了 PHMC(費城健康管理公司)2006 年進行的東南部賓州家戶健康電話調查資料。

由於原始的 PHMC 調查僅涵蓋 3,083 名兒童,為了產生具代表性的人口估計值,研究團隊採用了頻率加權法,並根據 2000 年美國人口普查數據進行事後分層(Post-stratification,依據母體真實特徵調整樣本權重的統計技巧)。加權調整後,推算出的非醫療網兒童總數達到 901,655 人,使得納入分析的總體兒童數來到 102,8872 人。

在地理空間的定位上,作者導入了 GIS(Geographic Information System,利用地理空間座標疊加人口與醫療數據的技術),將兩組病患的居住地對應到 MCD(最小行政區劃,相當於具有共同特徵的歷史社區)。透過大學的製圖建模實驗室,他們計算了病患住處與診所之間的直線距離,藉此評估就醫可及性對收案偏誤的影響。

這種將醫院內部 EMR 與外部公衛調查數據進行加權與空間疊加的做法,為後續的對比奠定了基礎。作者計算出每個街區內「未在 CHOP 就診」的兒童比例,並依此按比例降低社區調查數據的抽樣權重。這個數學處理確保了醫療網內的病患與醫療網外的社區病患被分割為兩個完全獨立的群體,從而能進行精確的統計檢定。

研究流程與世代對照篩選
階段數量與來源條件
醫療網內部來源127,217 名 CHOP 就診紀錄
社區對照組來源3,083 名 PHMC 普查兒童
加權推算對照組經事後分層調整達 901,655 人
排除條件6.5% (約 8550人) 無法定位地址

加權後的對照組涵蓋費城都會區百萬兒童

Table 2 呈現的 OR 偏移:西裔 0.14 與低收入戶 1.92

在兩大族群的對比中,Table 1 與 Table 2 呈現了極具統計意義的差異。就單變量分析來看,醫療網內的兒童女性比例微幅偏高(50.1% vs 47.5%,p=0.02),且在種族分布上有著極大差異。醫療網內有高達 37.7% 的非裔兒童,反觀社區對照組僅有 24.0%;而西班牙裔兒童在醫療網內僅占 2.2%,在社區族群中卻高達 19.4%。

除了種族,年齡分布也顯示了青少年族群的就醫斷層。在 12-18 歲的區間,醫療網內僅有 24.0% 的占比,但廣大社區中該年齡層高達 39.7%。這印證了臨床上的常態:幼兒較常按時回診進行預防保健,而青少年族群往往較少規律就醫,或傾向尋求其他醫療管道。在保險狀態方面,醫療網內依賴 Medicaid(美國針對低收入戶的醫療援助計畫)的比例為 28.0%,顯著高於社區的 19.3%(p<0.001)。

更有趣的是 Table 2 中的多變量 Logistic regression(多變量羅吉斯迴歸,用於排除多重混擾因子後計算出獨立影響力的統計模型)結果。作者將街區平均家庭人數、平均收入、就診距離以及小兒科醫師密度納入模型調整後,發現原始的差異依然堅若磐石。調整後的非裔勝算比(Adjusted OR)高達 1.91 (95% CI: 1.66-2.20),西班牙裔的 OR 僅 0.14 (0.12-0.16)。接收 Medicaid 的調整後 OR 也達到 1.92 (1.70-2.18)。

不過,在臨床共病方面,氣喘的診斷率在兩組之間毫無差異(16.6% vs 16.3%,未調整 OR 1.02)。糖尿病的盛行率在醫療網內雖較低(0.24% vs 0.60%),但考量到受試者皆為兒童,糖尿病本就屬於極低發生率的事件。這些數字告訴我們,若純粹依賴這家醫院的資料庫進行訓練,我們將得到一個「極度缺乏青少年與西裔數據、且高度偏向非裔與低收入戶」的模型。

Table 1 族群特徵未調整比較

青少年與西裔在醫療網內的占比嚴重低估

多變量迴歸調整後的勝算比偏移
特徵變數未調整 OR調整後 OR (95% CI)
女性1.101.11 (1.02, 1.21)
非裔1.521.91 (1.66, 2.20)
西裔0.110.14 (0.12, 0.16)
12-18 歲0.480.48 (0.40, 0.58)
低收入戶1.611.92 (1.70, 2.18)

資料來源:Table 2 (調整收入、距離、醫師密度)

Figure 3 街區解析與肺炎鏈球菌 IRR 1.69 的意義

當研究團隊把視角從都會區縮小到費城內的 13 個細分街區時,Figure 3 顯示了族群特徵差異的區域性震盪。雖然整體而言醫療網收治了較多非裔兒童,但這個現象主要集中在費城南區、西區以及北區;在某些街區,這種種族分布的傾斜反而被撫平了。同樣地,醫療網病患較少包含 12-18 歲青少年的情況,在北區與市中心卻呈現相反的趨勢。

為了測試這種「明顯存在的人口學偏移」是否會摧毀疾病預測的準確度,作者選用了侵襲性肺炎鏈球菌感染作為試金石。之所以選擇此疾病,是因為費城都會區在 2006 至 2009 年間具備極為完善的群體監測計畫。在全區 108 個確定病例中,有 18 例屬於醫療網內的兒童,62 例屬於非醫療網兒童;另有 28 例因缺乏就醫紀錄,需透過 Multiple imputations(多重插補法,利用既有變數機率分佈填補缺失值的統計程序)依據居住區重新分配。

經過精算,醫療網內的肺炎鏈球菌年發生率為每十萬人 18 例,而非醫療網群體的發生率為每十萬人 10 例。利用 Poisson regression(卜瓦松迴歸,用於計算稀有事件發生率與計數型資料的模型)比較兩者,得到的發生率比值(IRR)為 1.69 (95% CI: 0.72-3.96)。

儘管 IRR 數值看似有差異,但包含 1.0 的寬廣信賴區間證實了兩者「不具統計顯著差異」。作者探究其背後原因,認為雖然醫療網嚴重流失了青少年與西班牙裔的樣本,但這兩個子群體本來就「不是侵襲性肺炎鏈球菌的高風險族群」。也就是說,抽樣偏誤剛好發生在對該疾病流行病學無關緊要的特徵上,使得最終算出的發生率並未過度失真。

世代落差的限制與放射科 AI 影像集建置的省思

論文在 Discussion 中坦承了幾項重要的方法學限制。首先是作為對照組的 PHMC 調查樣本數相對稀少,當被強行切割到更細的街區時,會產生巨大的權重變異。其次,因為加權後的總數與真實的美國人口普查不符,研究者必須進行事後分層調整,這無可避免地引入了平滑化的誤差。此外,有高達 6.5%(約 8550 名)的醫療網兒童因地址不全無法被 GIS 定位到所屬社區,被迫從區域分析中剃除。

這些限制直接投射到放射線醫學的日常實務中。當各家醫院爭相利用院內的肺部 CT 或骨盆 X 光建立深度學習模型時,我們往往只關注總收案量是否有幾萬例,卻鮮少像這篇文獻一樣,將院內病患的輪廓與所在地的人口普查資料進行疊加比對。如果你的醫院因健保政策或地理位置,天然地排除了某個特定年齡層或特定社經地位的族群,你的 AI 模型將在無意間繼承這種盲區。

更深一層的臨床啟示在於「特徵與疾病的關聯性」。本篇之所以能在人口嚴重偏移的情況下,依舊精準預測出肺炎鏈球菌的發生率,是因為流失的「青少年與西裔」剛好不是該疾病的標靶族群。但若是放射科今天開發的是針對「生長板閉合與骨齡預測」的演算法,12-18 歲青少年樣本的巨幅流失(24.0% vs 39.7%)將帶來毀滅性的打擊。

因此,在設計影像輔助判讀的流程時,我們不該盲目迷信自家醫學中心的大數據。評估一項技術能不能推廣到基層醫療系統,首要任務是釐清該疾病的關鍵風險因子,並嚴格檢視訓練世代在這些特定因子上,是否完整重現了外部真實世界的複雜面貌。

訓練影像模型前先比對當地人口普查數據;若你的醫院天然流失了特定年齡層,且該年齡層恰好是你的目標疾病高風險群,模型在外部驗證時必然崩潰。

Abstract

Purpose To calculate new pediatric age-specific normative values and percentiles for kidney length and volume through the use of a natural language processing (NLP) model. Materials and Methods In this cross-sectional study, 24 664 US reports from 18 769 children (birth to 18 years) conducted between January 2012 and December 2022 at a tertiary children's hospital in the northeastern United States were analyzed with an NLP model. Anthropometric data from 12 595 children were used to evaluate the effect of sex and body measurements on kidney length and volume through age-adjusted quantile regression models. Age-related percentiles were established after calibration, using the lambda-mu-sigma (LMS) method by age (year), with detailed subcategories for children younger than 1 year. Volume percentiles by body surface area were also generated using the LMS method. Results A total of 24 664 reports from 18 769 children were included (median age, 7 years [IQR, 11 years]; 10 134 female children). Normative value analysis showed that kidney growth was more pronounced in the 1st year of life (1.8-cm increase in length and 16.9-cm