🤖 醫療 AI 導讀

arXiv 全文 ★4 2026-04-16

CAL²M 引入恆定間距的輔助鏡頭，成功讓視覺基礎模型實現無事前校正的公里級 SLAM 建圖。

視覺幾何基礎模型（VGFMs）在短影格的 3D 重建任務中展現了驚人的零樣本能力，但當系統軌跡拉長至公里級距時，直接套用現有框架卻經常遭遇災難性的地圖發散。為了跨越這道鴻溝，研究團隊提出 **CAL²M** 框架，透過引入一顆無須事前校正的「輔助鏡頭」，僅憑藉保持恆定物理間距的假設，便能從根本上消除單鏡頭難解的尺度模…

原文：Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye

arXiv 全文 ★4 2026-04-16

結合相位的磁振造影生成模型，以純合成數據訓練的異常辨識率反超真實病例。

傳統磁振造影常丟棄相位，導致腦腫瘤初診與病理結果產生 30% 分歧。一項基於 6,970 筆掃描的新研究，打造首個能同時生成振幅與相位的流匹配模型。完全以合成數據訓練的分類器，準確率竟超越真實資料基準。突破常規 MRI 侷限：找回被丟棄的腫瘤相位資訊 2022 年全球通報超過 **320,000** 起大腦與中樞…

原文：Generative Modeling of Complex-Valued Brain MRI Data

Korean J Radiol 全文 ★4 2026-Jan

從急診胸腔 X 光到腦中風的 CT 灌注掃描，香港放射科醫師分享如何克服跨系統整合，讓 AI 真實落地。

香港公營醫療體系承擔了超過 90% 的病患照護，AI 系統不再只是實驗室產物，而是急診與門診維持運作的基礎設施。如何將演算法無縫嵌入既有的臨床管理系統，並解決跨科溝通與語言障礙，成為放射科必須面對的管理課題。公營體系 90% 病患與雙軌資訊系統的整合挑戰探討人工智慧在放射科的應用，不能脫離當地的醫療基礎設施。在…

原文：Access for Artificial Intelligence in Radiology: A Hong Kong Perspective.

arXiv 全文 ★4 2026-04-16

Bilkent 大學研究團隊提出 SAT-CTS 演算法，捨棄傳統通道狀態估測，僅靠二元回饋即可讓毫米波網路快速達到 2.5 Gbps 的平均吞吐量門檻。

毫米波（mmWave）通訊雖然能提供超高頻寬，但其高度定向的波束極易受到實體阻擋，傳統依賴精確通道狀態資訊（CSI）的波束對齊方式成本過高且容易失效。Bilkent 大學研究團隊提出了一種名為 SAT-CTS 的機器學習演算法，直接跳過 CSI 估測，僅透過終端設備回傳的二元 ACK/NACK 訊號，就能確保每個用戶…

原文：Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits

arXiv 全文 ★4 2026-04-16

6小時提取18萬CAD模型，STEP-Parts標籤推升3D網路表現

傳統3D深度學習常將精確的CAD模型轉換為由大量三角形組成的網格，這種降維直接抹除了模型原有的幾何曲面與拓撲關係。為了在不犧牲精度下建立機器學習所需的標註，最新研究提出自動化標記工具STEP-Parts，能在消費級CPU上以不到6小時的時間，完成超過18萬個CAD模型的實例分割。這套直接從底層格式抽取特徵的系統，填補…

原文：STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing

arXiv 全文 ★4 2026-04-16

西班牙喀斯特溶洞收集了 335GB 多模態數據與 120Hz 動作捕捉真值，彌補了天然惡劣地下環境的 SLAM 測試資料空白。

西班牙 Cueva de la Victoria 溶洞內記錄了 **335 GB**、共計 **24 個序列**的多模態環境數據，並具備 **120 Hz** 毫米級動作捕捉系統真值，這構成了最新的 CAVERS 資料集。相較於結構規則的人工地下環境，天然喀斯特（karstic）溶洞的極端不規則幾何與完全無光特徵，為…

原文：CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture

arXiv 全文 ★4 2026-04-15

ASU 團隊提出無須重新訓練的 MSDDA 擴散模型對齊框架，透過步驟層級最佳化徹底消除多目標融合時的近似誤差。

亞利桑那州立大學（ASU）研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA，透過將強化學習拆解至去噪步驟層級（Step-level），在不引入額外數學近似誤差的情況下，直接融合多個單一目標的預訓練模型。實驗數據顯示，當同時要求圖像符合文本對齊與視覺美感雙重指標時，該方法不僅生成分數勝過傳統 Reward S…

原文：Step-level Denoising-time Diffusion Alignment with Multiple Objectives

arXiv 全文 ★4 2026-04-15

FoodSense 數據集釋出，讓視覺大模型首度學會看圖預測食物味道與聲音。

人類能從一張酥脆炸雞的照片，瞬間腦補出香氣與咬下的喀滋聲，但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題，研究團隊推出涵蓋 **66,842** 筆人類標註的 **FoodSense** 數據集，首度賦予模型看圖推論食物味覺與聲音的能力。建構六萬筆標註的 FoodSense 數據集在傳統的視覺語言模…

原文：FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images

Korean J Radiol 全文 ★4 2026-Mar

美國醫療保險的影像AI單次給付僅千餘美元，無差別使用恐引發預算危機。

AI 軟體在美國聯邦醫療保險的額外給付中位數僅有 1032 美元，遠低於心血管實體醫材的 14950 美元，但這項看似微不足道的單次金額，卻因為無差別篩檢的特性，可能引發放射科與急診整體的預算超載。我們總是關注模型準確率，卻極少深究這些演算法在真實健保體系中，究竟能為醫院帶入多少實質營收，這正是評估影像 AI 能否存…

原文：Access and Reimbursement for Artificial Intelligence in Radiology: A Japanese Perspective.

arXiv 全文 ★4 2026-04-15

新 RAG 架構將脈絡縮至 1/10，零額外儲存空間即可維持傳統生成效能。

裝置端 AI 面臨記憶體與儲存考驗。最新 arXiv 研究提出整合檢索與壓縮的單一模型，將上下文大砍至傳統的 **1/10**。新技術在零額外儲存負擔下維持既有效能，為本地端處理敏感資料徹底擺脫對雲端的依賴。傳統雲端 RAG 部署面臨的隱私與連線挑戰傳統的 **RAG（檢索增強生成，一種結合外部資料庫以提升 A…

原文：A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation

Korean J Radiol 全文 ★4 2026-Feb

非影像科醫師對純 AI 報告信任度僅 3.57 分，分析 12 項研究告訴你為何臨床端依賴放射科的最終簽核。

非影像科醫師對純人工智慧產出的報告信任度僅有 3.57 分（滿分 7 分），但如果是經過放射科醫師覆核的混合報告，信任度會暴衝到 6.38 分。這篇收錄 12 項核心研究的文獻回顧點出一個事實：比起擔心演算法的技術能力，臨床端真正焦慮的是缺乏人類背書的醫療決策。即使是身處數位時代的醫學生，也有高達 56% 堅信單靠機…

原文：Access and Reimbursement for Artificial Intelligence in Radiology: A Macau Perspective.

arXiv 全文 ★4 2026-04-15

透過視覺特徵階層化與動態問答引導，新標註框架成功將資料集一致性提升至0.974，並讓電腦視覺模型準確率大幅躍升。

在現有的主流影像資料集中，一張標示為「棕熊」的照片可能同時包含真實的熊、泰迪熊娃娃、卡通畫，甚至是穿著熊布偶裝的人。為了解決這類由人類主觀認知造成的標註混亂，倫敦大學學院與特倫托大學的研究團隊提出基於視覺特徵的群眾外包標註框架，成功將標註一致性指標 Krippendorff’s Alpha 提升至 0.974，並使 …

原文：Crowdsourcing of Real-world Image Annotation via Visual Properties

Korean J Radiol 全文 ★4 2026-Feb

純 AI 開發退燒！1900 篇投稿揭示地端模型與真實臨床驗證才是發表命脈。

你以為醫學 AI 研究還在比拼誰開發的模型準確率最高？事實上，拿現成的商業系統直接去預測急診病患的心肺不良事件才是新顯學——KJR 在 2025 年高達 1900 篇的海量投稿徹底證實了這個趨勢。高達 1900 篇投稿與 22 天審查：胸腔 X 光的 AI 轉向 KJR 在 2025 年進一步鞏固了其在放射科學界…

原文：Radiology Research and Publishing Across 2025-2026: Perspectives From

arXiv 全文 ★4 2026-04-15

非同步機率集成將通訊成本壓縮破千倍，並維持高達 0.9822 準確率。

一套針對災難救援設計的非同步機率集成框架，成功將邊緣裝置的模型通訊成本從 **255 MB** 巨幅壓縮至 **150 KB**，降幅破千倍。透過交換輕量化類別機率向量取代龐大權重，系統在影像辨識上維持 **0.9822** 的頂尖準確率，徹底解決災區網路不穩造成的同步癱瘓問題。傳統聯邦學習在無人機災區偵測的通訊…

原文：Asynchronous Probability Ensembling for Federated Disaster Detection

arXiv 全文 ★4 2026-04-16

僅用4張正常樣本，H2VLR 透過異構超圖推論在 MVTec 創下 97.96% 準確率，打破視覺語言模型局部比對限制。

僅需 4 張正常樣本，**H2VLR** 框架就能在 **MVTec** 工業數據集達到 **97.96%** 的異常檢測準確率，甚至超越使用全量數據訓練的模型。傳統視覺語言模型在少樣本異常檢測中，往往依賴單一的圖像區塊與文字特徵比對，容易漏判具備結構性關聯的微小瑕疵。中國電子科技大學團隊提出的異構超圖推論架構，打破…

原文：H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection

arXiv 全文 ★4 2026-04-16

南加州大學團隊證實，僅憑傷後 7 天內的常規病歷文本，大型語言模型就能以 0.892 的準確率預測創傷後癲癇。

南加州大學團隊證實，僅憑受傷後 7 天內的常規臨床紀錄，不依賴昂貴神經影像，大型語言模型就能以高達 **0.892** 的 AUC-ROC 準確率預測創傷後癲癇。這項涵蓋 **256** 名患者的研究，展現了純文本資料預測高風險神經疾病的潛力。取代昂貴神經影像的 TRACK-TBI 臨床紀錄創傷後癲癇（PTE）…

原文：Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings

arXiv 全文 ★4 2026-04-16

上海科技大學提出全新影片物件插入技術，結合多視角先驗與幾何一致性模組，成功達到 23.22 PSNR。

上海科技大學研究團隊近期提出全新的影片物件插入（Video Object Insertion）框架，透過結合 3D 多視角先驗技術，成功在邊界框控制條件下達到 **23.22** 的 PSNR 與 **0.9026** 的 SSIM，大幅超越現有基準模型。這項研究突破了過去單張參考圖像容易導致的物體變形與身份漂移問題…

原文：Controllable Video Object Insertion via Multiview Priors

arXiv 全文 ★4 2026-04-16

浙江大學團隊利用擴散模型預測影像雜訊，開發出 ANL 檢測架構，將未參與訓練的 Deepfake 模型檢測準確率提升逾 12%。

當前主流的 Deepfake 檢測系統正面臨嚴峻挑戰，面對由 Midjourney 或 Stable Diffusion 生成的影像，傳統基於像素特徵的模型往往會失效。來自浙江大學的研究團隊提出了一種名為注意力引導雜訊學習（ANL）的新架構，透過預先訓練的擴散模型提取影像的潛在雜訊，成功將未見過生成模型的跨模型檢測準…

原文：Deepfake Detection Generalization with Diffusion Noise

arXiv 全文 ★4 2026-04-16

免訓練圖像合成模組 GIST 解決排版視覺衝突，在 GPT-4V 設計盲測中取得高達 71.43% 勝率。

現代平面設計往往面臨一個現實困境：當來自不同來源的圖片、商標和文字拼湊在一起時，常會因為光影和色調的差異而顯得格格不入。卡內基梅隆大學與 Adobe Research 團隊在最新的研究中發現，超過 **40.3%** 的自動化排版可以透過影像合成模組獲得顯著改善。他們開發出名為 **GIST** 的免訓練圖像合成技術…

原文：Towards Design Compositing

AJNR Ahead 全文 ★4 2026-03-20

AI 量化頸動脈扭曲指數（CER）無法獨立預測取栓預後，但精準揭露了高齡血管延長造成的手術時間延遲。

頸動脈越彎折，取栓後的預後真的就越差嗎？若單看這 412 例的初步分析，極度扭曲的解剖構造確實與較低的 90 天功能獨立性相關；但多變數迴歸推翻了這個直覺，顯示每增加 0.1 扭曲指數的勝算比僅為 0.97。真正的阻礙在於物理時間耗損：AI 算出的數值完美解釋了高齡患者為何在鼠蹊部到血管打通之間，每年齡的增加會無形中…

原文：AI-derived Carotid Elongation Ratio may predict procedural delay but offer limited prognostic utility in mechanical thro…

Korean J Radiol 全文 ★4 2026-Mar

Flamingo-CXR 生成的正常X光報告獲94%專家青睞，但重症案例仍需人機協作。

在27位專家的雙盲測試中，高達**94%**無異常胸部X光AI報告獲評優於或等同人類版本。**Flamingo-CXR**視覺語言模型評估顯示，儘管門診AI報告青睞度達**77.7%**，複雜病歷中仍有**22.8%**僅AI犯下重大錯誤，揭示了自動生成模型的真實效能邊界。基礎模型 Flamingo-CXR 突破…

原文：Response to Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From th…

arXiv 全文 ★4 2026-04-16

DETR-ViP 藉由全域整合與關係蒸餾重塑視覺提示空間，解決語義模糊問題，在 COCO 零樣本偵測超越前代 4.4 mAP。

視覺提示（Visual prompts）在開放詞彙物件偵測中，理應比文字提示具備更強的罕見類別泛化能力，但其表現卻長期落後。西安交大與海康機器人團隊提出的 DETR-ViP 架構，透過重塑視覺提示的語義空間，在 COCO 資料集上大幅超越現有 T-Rex2 模型達 **+4.4 mAP**，成功釋放視覺提示的物件偵測…

原文：DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts

arXiv 全文 ★4 2026-04-16

Geo2Sound 框架首創將衛星影像轉化為高還原度環境音景，FAD 品質指標達創紀錄 1.765。

突破傳統視覺物件轉音訊的視角限制，研究團隊提出的 Geo2Sound 框架首次實現了將靜態衛星影像轉化為高還原度的地理環境音景（Soundscape）。該研究不僅將 Fréchet Audio Distance（FAD，用於評估生成音訊品質與真實分佈差異的指標）降至創紀錄的 **1.765**，較現有最強影像轉音訊基…

原文：Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

arXiv 全文 ★4 2026-04-16

G-MIXER 演算法透過測地線混疊與顯性語意重排序，在無需訓練下將 CIRR 資料集檢索準確率提升 7.83%。

現有的零樣本組合影像檢索（ZS-CIR）高度依賴文字描述，容易遺失圖片未提及的隱含細節。最新發布的 **G-MIXER** 演算法打破此限制，透過測地線混疊（Geodesic Mixup）與顯性語意重排序技術，在無需額外訓練的情況下，於 CIRR 資料集的 mAP@50 準確率大幅提升 **7.83%**。這項技術證…

原文：G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image …

Korean J Radiol 全文 ★4 2026-Mar

27 位醫師盲測發現，視覺模型在常規 X 光報告高達 94% 媲美人類專家。

透過徵召 27 位來自美國與印度的認證放射科醫師，一項針對視覺語言模型 Flamingo-CXR 的最新研究指出，在缺乏異常發現的常規胸部 X 光報告中，高達 **94%** 的 AI 生成內容被評估為等同或優於人類醫師的撰寫版本。然而，研究同時揭露人類與 AI 皆會犯下臨床顯著錯誤，在超過兩成的門診案例中，僅有 A…

原文：Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Soc…

arXiv 全文 ★4 2026-04-16

微軟 HAMSA 捨棄空間掃描，憑頻譜運算達 85.7% 準確率，推論速度翻倍。

微軟研究團隊提出全新視覺狀態空間模型（SSM）架構 **HAMSA**，以 **85.7%** 的 ImageNet-1K 準確率創下 SSM 領域新紀錄。有別於傳統模型依賴複雜的二維影像掃描策略，HAMSA 完全捨棄空間上的掃描機制，直接轉往頻譜域（Spectral Domain）進行核心運算。這項架構變革讓硬體推…

原文：HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet

AJNR Ahead 全文 ★4 2026-03-20

畫質越好的 3D MRI 竟讓 AI 準確率暴跌 24%，ASFNR 競賽次級分析直指影像參數變異才是 AI 效能衰退的致命傷。

給神經放射科的 AI 餵入畫質更好的高解析度影像，反而會讓診斷準確率暴跌——當 AI 模型接收 1mm 等方向的 3D MRI 影像時，其病灶切割 Dice 分數比起處理傳統 5mm 厚切影像，竟然大幅度下降了 **24%**。這份 ASFNR AI 競賽的次級分析，直接打破了畫質越好模型越聰明的直覺，點出掃描參數變…

原文：Impact of Imaging Acquisition and Protocol Variability on Artificial Intelligence Model Performance: A Secondary Analysi…

arXiv 全文 ★4 2026-04-16

單圖生成 3D 數位人新突破！結合臉髮解耦架構與 500 頂點輕量網格，成功實現逼真毛髮動態。

僅憑一張靜態照片，就能生成具備真實毛髮動態的 3D 數位人？西安交通大學團隊提出全新單樣本重建技術，首創「頭臉與毛髮解耦」架構，利用不到 **500** 個頂點的輕量網格與實時物理引擎，徹底解決過往 3D 模型「髮臉沾黏」的僵硬破綻。突破單圖生成 3D 數位人瓶頸：臉髮沾黏難題建立具備高保真度且可動畫控制的 3…

原文：One-shot Compositional 3D Head Avatars with Deformable Hair

arXiv 全文 ★4 2026-04-16

實測2079題無解測試，前沿VLM預設棄權率近零，寧捏造錯誤也不承認無知。

在面對2079筆刻意設計的無解多模態考題時，當前最先進的視覺語言模型展現出令人擔憂的過度自信。根據ServiceNow Research發布的最新評測，在預設提示條件下，**GPT-5**與**Claude Sonnet 4.5**等前沿模型在面對資訊不足的圖像與文件時，承認「我不知道」的機率逼近於零，且在超過80%…

原文：Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems