🤖 醫療 AI 導讀

arXiv 全文 ★4 2026-04-17

維吉尼亞理工團隊利用時間分佈迭代演算法，在 5 輛車的自駕模擬中僅用 3 次迭代便解決了賽局預測控制的運算延遲難題。

傳統自動駕駛賽局模型預測控制常因頻繁計算奈許均衡，導致系統運算嚴重過載。維吉尼亞理工團隊提出的時間分佈迭代解法，在 **5** 輛車的無號誌路口模擬中，證明僅需 **3** 次極限迭代即可大幅降低運算延遲，讓龐大運算量的多車賽局演算法具備即時落地的潛力。自動駕駛賽局模型預測控制（GT-MPC）的運算瓶頸自駕車在…

原文：Real-Time Solution-Seeking for Game-Theoretic Autonomous Driving via Time-Distributed Iterations

European Radiology 全文 ★4 2026-Apr-07

高達 0.78 的預測模型在外部驗證暴跌至擲硬幣水準，徹底揭開影像組學過度擬合的面紗。

曾經高達 C-statistic **0.78** 的神準影像組學模型，換了一批病患後，預測能力竟暴跌到與丟銅板無異的 **0.39**。這項針對大腸直腸癌肝轉移熱消融後局部復發的多中心外部驗證研究，無情地戳破了人工智慧預測的過度樂觀，提醒我們在未經獨立驗證前，別輕易把演算法的訓練結果當成臨床決策的依據。 53% …

原文：Do MRI radiomic models truly generalize? External validation of three studies in parotid lesion characterization.

arXiv 全文 ★4 2026-04-17

透過字典剪枝技術將模型詞彙量縮減 36%，Llama-3.1-8B 翻譯表現不僅顯著提升，更大幅降低記憶體負擔。

透過刪減不需要的語言詞彙，開源語言模型的字典大小可減少高達 **36%**，且在韓語到英語的機器翻譯評測中，**Llama-3.1-8B-Inst** 的分數從 0.5879 顯著提升至 0.6342。面對多語言語言模型帶來的記憶體負擔與語言混淆問題，詞彙剪枝（Token Pruning）成為一種極具潛力的模型壓縮技…

原文：Optimizing Korean-Centric LLMs via Token Pruning

Korean J Radiol 全文 ★4 2026-Apr-01

腫瘤棲地分析是空間視覺化的利器，但疊加放射組學反而會陷入雙重不確定性的陷阱。

看似先進的棲地放射組學模型，反而會讓預測精準度倒退——當你把高維度特徵硬套在沒有生物學標準答案的叢集上，得到的往往是缺乏臨床意義的黑盒子。這篇文章明確指出，透過無監督學習切分出的腫瘤棲地，實際上只是機率性的空間分佈，例如某個體積像素可能只是呈現 **80%** 棲地 X 與 **20%** 棲地 Y 的特徵，而非絕對…

原文：Uncover This Tech Term: Tumor Habitat Analysis.

European Radiology 全文 ★4 2026-Apr-17

骨折敏感度高達 97% 的外傷常規報告，若直接用於 AI 訓練，其骨質流失高達 84% 的偽陰性將毒害演算法的精準度。

常規外傷 X 光報告的骨質流失敏感度僅 30%，若直接拿去訓練 AI 將引發嚴重資訊偏誤。這份研究精準拆解了臨床報告的真實數據，揭示骨折診斷高達 97% 的敏感度背後，哪些次要發現是演算法不能依賴的毒藥。 618 筆外傷 X 光檢驗：臨床報告對決雙盲閱片訓練醫療 AI（人工智慧，讓電腦模擬人類判讀影像）需要海量且…

原文：Independent bone-level diagnostic accuracy study of an AI tool for detecting appendicular skeletal fractures on radiogra…

RadioGraphics 全文 ★4 2026-Mar

機器學習結合進階影像標記，將多發性硬化症預測特異度翻倍至50%。

單憑 T1 加權影像預測臨床孤立症候群轉化為多發性硬化症，準確率竟然等同於盲猜。多發性硬化症的病程高度異質，即使臨床發現了滿腦子的白質病灶，數量卻經常與實際失能程度脫鉤，使得及早投藥的決策充滿變數。然而，透過機器學習結合進階的磁振造影生物標記，最新的預測模型已經將特異度推升至 **50%**，直接翻倍超越傳統 McD…

原文：Conventional and Emerging MRI Biomarkers of Multiple Sclerosis.

arXiv 全文 ★4 2026-04-16

突破數十個幾何參數的隱性綁定，透過雙路徑調變機制讓單圖 3D 虛擬人實現獨立的情感控制。

現有單圖 3D 頭部生成技術中，控制臉部動作的數十個幾何參數往往將語音與「情感」隱式打包，導致難以針對單一情緒進行獨立且一致的修改。這篇來自南京大學與微軟亞洲研究院的研究，提出將情感獨立為第一類顯式控制訊號。透過全新的雙路徑調變機制，讓 3D 虛擬人能在完全不改變原有前饋網路架構的條件下，展現獨立於語音的精準情感變化…

原文：Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars

arXiv 全文 ★4 2026-04-16

NTIRE 2026 超解析度賽事由 SamsungAICamera 以 33.73 dB 奪冠，兩階段架構與擴散模型成為技術新標竿。

NTIRE 2026 影像超解析度（x4）挑戰賽共吸引 **194 名**註冊參賽者，最終由 **SamsungAICamera** 團隊以破紀錄的 **33.73 dB** 峰值信噪比（PSNR）奪下雙軌賽道冠軍。本屆賽事標誌著技術典範的轉移，兩階段架構與擴散模型已正式取代傳統單一網路，成為突破視覺感知與像素保真度…

原文：The Fourth Challenge on Image Super-Resolution ($\times$4) at NTIRE 2026: Benchmark Results and Method Overview

Korean J Radiol 全文 ★4 2025-Nov

非閘控CT的AI鈣化評分極高精準，但需提防左前降支的解剖定位誤判。

就算沒有心電圖閘控，AI 算出的總體鈣化分數與人工圈選的 ICC 仍高達 **0.992**，但演算法有高達 **38.9%** 的極端誤差來自把 LAD 鈣化誤認為左主幹。這項針對 913 位胃癌與大腸癌病患的非顯影胸部 CT 分析證實，利用例行癌症追蹤影像來篩檢潛在心血管風險已具備高度臨床可行性。只是在極端值中，…

原文：Comments on "Impact of Deep Learning-Based Image Conversion on Fully Automated Coronary Artery Calcium Scoring Using Thi…

arXiv 全文 ★4 2026-04-16

M3D-Net 透過單張影像重建 3D 反照率與深度特徵，結合多模態融合技術，在 FF++ 資料集達到 0.9746 AUC 分數。

傳統的 2D 深度偽造（Deepfake）檢測技術在面對高畫質或極度模糊的造假影像時經常失效。為了解決這項痛點，華南農業大學研究團隊提出 **M3D-Net** 雙流網路架構，透過單一視角 RGB 影像重建臉部的反照率與深度特徵。這項結合 3D 空間特徵與 RGB 影像的多模態融合技術，在主流的 FF++(c23) …

原文：M3D-Net: Multi-Modal 3D Facial Feature Reconstruction Network for Deepfake Detection

arXiv 全文 ★4 2026-04-16

MLN 演算法在視覺自迴歸模型中實現免反演編輯，1024px 圖像處理僅需 1.6 秒。

傳統擴散模型在編輯 1024px 高解析度圖像時，往往需要等待數十秒並受困於反演誤差。最新發表於 arXiv 的研究提出 Masked Logit Nudging (MLN) 方法，能在不依賴反演的視覺自迴歸 (VAR) 模型架構下，將 1024px 圖像編輯時間大幅壓縮至 **1.6 秒**，同時在多項標準測試中達…

原文：Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models

arXiv 全文 ★4 2026-04-16

北郵最新論文證實：轉向同義集重建，感知分佈散度即可從數學推導自然浮現。

傳統壓縮演算法在低位元率常面臨信號模糊問題，促成了率-失真-感知（RDP）框架的廣泛應用。北京郵電大學團隊證明，若將壓縮目標從「還原信號本身」轉為「落入特定同義集」，感知品質必備的分佈散度即可純數學推導自然浮現，無須仰賴外部假設。解析 RDP 理論缺口：將分佈散度轉為數學推導在自然信號壓縮領域，傳統上由夏農（S…

原文：A Synonymous Variational Perspective on the Rate-Distortion-Perception Tradeoff

Korean J Radiol 全文 ★4 2025-Dec

只要加上 Chain-of-Thought 提示詞，AI 就能在毫秒間從繁雜的 CCTA 文字報告中，精準榨出高達 94.6% 準確率的 CAD-RADS 2.0 結構化數據。

讓模型把思考過程寫下來的 Chain-of-Thought 技巧，並非所有 AI 的萬靈丹。在萃取狹窄嚴重度時，它讓 GPT-4 的外部測試準確率暴增 19.2%，但對於內建多步推理架構的 o1-mini，準確率改變卻微乎其微（-4.1% 到 +2.0%）。這種提示詞的邊際效應，展示了不同模型處理結構化醫療報告的底層…

原文：Response to "When AI Meets Coronary CT: Overcoming Challenges and Enhancing Accuracy in CAD-RADS Reporting".

Korean J Radiol 全文 ★4 2025-Dec

即使缺漏抽血與血壓數據，GPT-4 預測十年心血管風險依然與 Framingham 量表不相上下，顛覆臨床預測邏輯。

即使把總膽固醇、高低密度脂蛋白與三酸甘油酯等核心抽血數據全部刪除，GPT-4 預測十年內心血管重大不良事件的精準度依然高達 **AUROC 0.722**，幾乎沒有因為變數短缺而掉分。這完全顛覆了我們過去對風險預測模型必須仰賴完整結構化參數的既有認知，比起只要缺一項數值就無法計算的傳統量表，大型語言模型展示了在殘缺病…

原文：Minimum Reporting Items for Clear Evaluation of Accuracy Reports of Large Language Models in Healthcare (MI-CLEAR-LLM): …

arXiv 全文 ★4 2026-04-16

UniPASE 透過雙流生成架構解決語音增強幻覺，在 DNS 2020 展現 2.17% 極低字錯率，奪下 URGENT 2025 客觀評測冠軍。

在通用語音增強（USE）領域，純生成式模型雖然能提供極高的聽覺品質，卻常伴隨嚴重的「幻覺」問題——產生錯誤字詞或改變說話者特徵。南京大學與地平線機器人團隊提出的 **UniPASE** 是一個具備 **545.7M** 參數的生成式架構，成功解決了這個難題。該模型在 URGENT 2025 挑戰賽的客觀評測中奪得第 …

原文：UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations

Korean J Radiol 全文 ★4 2025-Dec

全自動化冠狀動脈鈣化評估系統不僅將單例運算縮短至 57 秒，更意外揪出 15.9% 人類漏看的微小病灶。

看似 AI 演算法誤判的 333 個假陽性鈣化點中，經過資深主治醫師覆核後，竟然有高達 15.9% 是人類放射科醫師當初漏看的真實病灶。從 30 分鐘縮短到 57 秒的無對比劑冠狀動脈 AI 自動評估自從 1990 年 Agatston score 被提出以來，評估冠狀動脈鈣化（CAC）始終高度依賴放射線人員的…

原文：When AI Meets Coronary CT: Overcoming Challenges and Enhancing Accuracy in CAD-RADS Reporting.

Korean J Radiol 全文 ★4 2025-Dec

AI 戰場不在取代老鳥：新加坡證實深度學習是拉拔急診菜鳥的最強外掛

以為 AI 能輾壓放射科老鳥？本研究證實，半年資歷新手在 AI 輔助下，COVID-19 敏感度從 **38.89%** 暴衝至 **62.50%**，但兩年以上經驗的老鳥反倒未受惠。這清楚點出深度學習的最佳用途：拉拔初階醫師。分辨三類胸部 X 光影像變化的急診分流需求面對突如其來的傳染病疫情爆發，急診與發燒篩…

原文：Access and Reimbursement for Artificial Intelligence in Radiology: A Singapore Perspective.

arXiv 全文 ★4 2026-04-16

Seen-to-Scene 框架首創光流傳播與擴散模型融合，Zero-shot 條件下將影片擴展的 FVD 提升 6.7%。

在短影音盛行的時代，將 16:9 影片無縫擴展為 9:16 等多樣比例，一直是內容創作的挑戰。來自延世大學與 GenGenAI 的研究團隊提出 Seen-to-Scene 框架，首度將光流傳播與擴散模型統一，在 YouTube-VOS 數據集的測試中，該方法在無需微調的 Zero-shot 條件下，將評估影片品質的 …

原文：Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting

arXiv 全文 ★4 2026-04-16

僅需 200 bps 頻寬，強化學習編碼器即可達成 3.20% 極低字錯率。

在衛星通訊與水下探測等極端環境中，傳輸語音的資料額度往往被壓縮至每秒僅 **200 bps**。清華大學與華為聯合提出的 **ClariCodec** 神經語音編碼器，透過導入強化學習（RL）技術將語音壓縮至此極限，並在 LibriSpeech 測試集中達成 **3.20%** 的字錯率（WER）。該系統成功在耗用頻…

原文：ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning

Korean J Radiol 全文 ★4 2025-Dec

RouteGAN 影像轉換能讓不同廠牌 CT 上的肺纖維化 AI 量化準確率翻倍，但要當心毛玻璃病灶流失。

把非標準化 CT 轉換為標準格式後，雖然整體纖維化量化準確率翻倍，但毛玻璃病變的像素召回率卻從 42% 暴跌至 19%。跨廠牌與重建參數的影像轉換，確實能讓人工智慧辨識蜂窩狀改變與網狀病灶的 Dice 相似係數從 0.19 大幅爬升至 0.47，但並非所有間質性肺病特徵都能在生成式對抗網路的轉換下受益。解決跨院區…

原文：Effects of Computed Tomography Technical Parameters on Body-Composition Analysis.

arXiv 全文 ★4 2026-04-16

LBNL 團隊運用 Google AlphaEarth 的 64 維度地理空間向量，成功在美國本土預測深達 6000 公尺的地底溫度，誤差僅 6.0°C。

測量地表下深處的溫度與地質結構，過去往往仰賴耗資龐大且分布不均的地質鑽孔與地球物理探勘。然而，勞倫斯柏克萊國家實驗室（LBNL）的最新研究證實，透過分析地表的地理特徵，我們能精準推算難以觀測的地底狀況。研究團隊利用 **Google AlphaEarth Foundations** 產生的 64 維度地理空間嵌入向量…

原文：Subsurface Property Mapping using Google AlphaEarth Foundations

arXiv 全文 ★4 2026-04-16

CAL²M 引入恆定間距的輔助鏡頭，成功讓視覺基礎模型實現無事前校正的公里級 SLAM 建圖。

視覺幾何基礎模型（VGFMs）在短影格的 3D 重建任務中展現了驚人的零樣本能力，但當系統軌跡拉長至公里級距時，直接套用現有框架卻經常遭遇災難性的地圖發散。為了跨越這道鴻溝，研究團隊提出 **CAL²M** 框架，透過引入一顆無須事前校正的「輔助鏡頭」，僅憑藉保持恆定物理間距的假設，便能從根本上消除單鏡頭難解的尺度模…

原文：Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye

arXiv 全文 ★4 2026-04-16

結合相位的磁振造影生成模型，以純合成數據訓練的異常辨識率反超真實病例。

傳統磁振造影常丟棄相位，導致腦腫瘤初診與病理結果產生 30% 分歧。一項基於 6,970 筆掃描的新研究，打造首個能同時生成振幅與相位的流匹配模型。完全以合成數據訓練的分類器，準確率竟超越真實資料基準。突破常規 MRI 侷限：找回被丟棄的腫瘤相位資訊 2022 年全球通報超過 **320,000** 起大腦與中樞…

原文：Generative Modeling of Complex-Valued Brain MRI Data

Korean J Radiol 全文 ★4 2026-Jan

從急診胸腔 X 光到腦中風的 CT 灌注掃描，香港放射科醫師分享如何克服跨系統整合，讓 AI 真實落地。

香港公營醫療體系承擔了超過 90% 的病患照護，AI 系統不再只是實驗室產物，而是急診與門診維持運作的基礎設施。如何將演算法無縫嵌入既有的臨床管理系統，並解決跨科溝通與語言障礙，成為放射科必須面對的管理課題。公營體系 90% 病患與雙軌資訊系統的整合挑戰探討人工智慧在放射科的應用，不能脫離當地的醫療基礎設施。在…

原文：Access for Artificial Intelligence in Radiology: A Hong Kong Perspective.

arXiv 全文 ★4 2026-04-16

Bilkent 大學研究團隊提出 SAT-CTS 演算法，捨棄傳統通道狀態估測，僅靠二元回饋即可讓毫米波網路快速達到 2.5 Gbps 的平均吞吐量門檻。

毫米波（mmWave）通訊雖然能提供超高頻寬，但其高度定向的波束極易受到實體阻擋，傳統依賴精確通道狀態資訊（CSI）的波束對齊方式成本過高且容易失效。Bilkent 大學研究團隊提出了一種名為 SAT-CTS 的機器學習演算法，直接跳過 CSI 估測，僅透過終端設備回傳的二元 ACK/NACK 訊號，就能確保每個用戶…

原文：Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits

arXiv 全文 ★4 2026-04-16

6小時提取18萬CAD模型，STEP-Parts標籤推升3D網路表現

傳統3D深度學習常將精確的CAD模型轉換為由大量三角形組成的網格，這種降維直接抹除了模型原有的幾何曲面與拓撲關係。為了在不犧牲精度下建立機器學習所需的標註，最新研究提出自動化標記工具STEP-Parts，能在消費級CPU上以不到6小時的時間，完成超過18萬個CAD模型的實例分割。這套直接從底層格式抽取特徵的系統，填補…

原文：STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing

arXiv 全文 ★4 2026-04-16

西班牙喀斯特溶洞收集了 335GB 多模態數據與 120Hz 動作捕捉真值，彌補了天然惡劣地下環境的 SLAM 測試資料空白。

西班牙 Cueva de la Victoria 溶洞內記錄了 **335 GB**、共計 **24 個序列**的多模態環境數據，並具備 **120 Hz** 毫米級動作捕捉系統真值，這構成了最新的 CAVERS 資料集。相較於結構規則的人工地下環境，天然喀斯特（karstic）溶洞的極端不規則幾何與完全無光特徵，為…

原文：CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture

arXiv 全文 ★4 2026-04-15

ASU 團隊提出無須重新訓練的 MSDDA 擴散模型對齊框架，透過步驟層級最佳化徹底消除多目標融合時的近似誤差。

亞利桑那州立大學（ASU）研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA，透過將強化學習拆解至去噪步驟層級（Step-level），在不引入額外數學近似誤差的情況下，直接融合多個單一目標的預訓練模型。實驗數據顯示，當同時要求圖像符合文本對齊與視覺美感雙重指標時，該方法不僅生成分數勝過傳統 Reward S…

原文：Step-level Denoising-time Diffusion Alignment with Multiple Objectives

arXiv 全文 ★4 2026-04-15

FoodSense 數據集釋出，讓視覺大模型首度學會看圖預測食物味道與聲音。

人類能從一張酥脆炸雞的照片，瞬間腦補出香氣與咬下的喀滋聲，但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題，研究團隊推出涵蓋 **66,842** 筆人類標註的 **FoodSense** 數據集，首度賦予模型看圖推論食物味覺與聲音的能力。建構六萬筆標註的 FoodSense 數據集在傳統的視覺語言模…

原文：FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images