🤖 醫療 AI 導讀

arXiv 全文 ★4 2026-04-16

免訓練圖像合成模組 GIST 解決排版視覺衝突，在 GPT-4V 設計盲測中取得高達 71.43% 勝率。

現代平面設計往往面臨一個現實困境：當來自不同來源的圖片、商標和文字拼湊在一起時，常會因為光影和色調的差異而顯得格格不入。卡內基梅隆大學與 Adobe Research 團隊在最新的研究中發現，超過 **40.3%** 的自動化排版可以透過影像合成模組獲得顯著改善。他們開發出名為 **GIST** 的免訓練圖像合成技術…

原文：Towards Design Compositing

AJNR Ahead 全文 ★4 2026-03-20

AI 量化頸動脈扭曲指數（CER）無法獨立預測取栓預後，但精準揭露了高齡血管延長造成的手術時間延遲。

頸動脈越彎折，取栓後的預後真的就越差嗎？若單看這 412 例的初步分析，極度扭曲的解剖構造確實與較低的 90 天功能獨立性相關；但多變數迴歸推翻了這個直覺，顯示每增加 0.1 扭曲指數的勝算比僅為 0.97。真正的阻礙在於物理時間耗損：AI 算出的數值完美解釋了高齡患者為何在鼠蹊部到血管打通之間，每年齡的增加會無形中…

原文：AI-derived Carotid Elongation Ratio may predict procedural delay but offer limited prognostic utility in mechanical thro…

Korean J Radiol 全文 ★4 2026-Mar

Flamingo-CXR 生成的正常X光報告獲94%專家青睞，但重症案例仍需人機協作。

在27位專家的雙盲測試中，高達**94%**無異常胸部X光AI報告獲評優於或等同人類版本。**Flamingo-CXR**視覺語言模型評估顯示，儘管門診AI報告青睞度達**77.7%**，複雜病歷中仍有**22.8%**僅AI犯下重大錯誤，揭示了自動生成模型的真實效能邊界。基礎模型 Flamingo-CXR 突破…

原文：Response to Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From th…

arXiv 全文 ★4 2026-04-16

DETR-ViP 藉由全域整合與關係蒸餾重塑視覺提示空間，解決語義模糊問題，在 COCO 零樣本偵測超越前代 4.4 mAP。

視覺提示（Visual prompts）在開放詞彙物件偵測中，理應比文字提示具備更強的罕見類別泛化能力，但其表現卻長期落後。西安交大與海康機器人團隊提出的 DETR-ViP 架構，透過重塑視覺提示的語義空間，在 COCO 資料集上大幅超越現有 T-Rex2 模型達 **+4.4 mAP**，成功釋放視覺提示的物件偵測…

原文：DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts

arXiv 全文 ★4 2026-04-16

Geo2Sound 框架首創將衛星影像轉化為高還原度環境音景，FAD 品質指標達創紀錄 1.765。

突破傳統視覺物件轉音訊的視角限制，研究團隊提出的 Geo2Sound 框架首次實現了將靜態衛星影像轉化為高還原度的地理環境音景（Soundscape）。該研究不僅將 Fréchet Audio Distance（FAD，用於評估生成音訊品質與真實分佈差異的指標）降至創紀錄的 **1.765**，較現有最強影像轉音訊基…

原文：Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

arXiv 全文 ★4 2026-04-16

G-MIXER 演算法透過測地線混疊與顯性語意重排序，在無需訓練下將 CIRR 資料集檢索準確率提升 7.83%。

現有的零樣本組合影像檢索（ZS-CIR）高度依賴文字描述，容易遺失圖片未提及的隱含細節。最新發布的 **G-MIXER** 演算法打破此限制，透過測地線混疊（Geodesic Mixup）與顯性語意重排序技術，在無需額外訓練的情況下，於 CIRR 資料集的 mAP@50 準確率大幅提升 **7.83%**。這項技術證…

原文：G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image …

Korean J Radiol 全文 ★4 2026-Mar

27 位醫師盲測發現，視覺模型在常規 X 光報告高達 94% 媲美人類專家。

透過徵召 27 位來自美國與印度的認證放射科醫師，一項針對視覺語言模型 Flamingo-CXR 的最新研究指出，在缺乏異常發現的常規胸部 X 光報告中，高達 **94%** 的 AI 生成內容被評估為等同或優於人類醫師的撰寫版本。然而，研究同時揭露人類與 AI 皆會犯下臨床顯著錯誤，在超過兩成的門診案例中，僅有 A…

原文：Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Soc…

arXiv 全文 ★4 2026-04-16

微軟 HAMSA 捨棄空間掃描，憑頻譜運算達 85.7% 準確率，推論速度翻倍。

微軟研究團隊提出全新視覺狀態空間模型（SSM）架構 **HAMSA**，以 **85.7%** 的 ImageNet-1K 準確率創下 SSM 領域新紀錄。有別於傳統模型依賴複雜的二維影像掃描策略，HAMSA 完全捨棄空間上的掃描機制，直接轉往頻譜域（Spectral Domain）進行核心運算。這項架構變革讓硬體推…

原文：HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet

AJNR Ahead 全文 ★4 2026-03-20

畫質越好的 3D MRI 竟讓 AI 準確率暴跌 24%，ASFNR 競賽次級分析直指影像參數變異才是 AI 效能衰退的致命傷。

給神經放射科的 AI 餵入畫質更好的高解析度影像，反而會讓診斷準確率暴跌——當 AI 模型接收 1mm 等方向的 3D MRI 影像時，其病灶切割 Dice 分數比起處理傳統 5mm 厚切影像，竟然大幅度下降了 **24%**。這份 ASFNR AI 競賽的次級分析，直接打破了畫質越好模型越聰明的直覺，點出掃描參數變…

原文：Impact of Imaging Acquisition and Protocol Variability on Artificial Intelligence Model Performance: A Secondary Analysi…

arXiv 全文 ★4 2026-04-16

單圖生成 3D 數位人新突破！結合臉髮解耦架構與 500 頂點輕量網格，成功實現逼真毛髮動態。

僅憑一張靜態照片，就能生成具備真實毛髮動態的 3D 數位人？西安交通大學團隊提出全新單樣本重建技術，首創「頭臉與毛髮解耦」架構，利用不到 **500** 個頂點的輕量網格與實時物理引擎，徹底解決過往 3D 模型「髮臉沾黏」的僵硬破綻。突破單圖生成 3D 數位人瓶頸：臉髮沾黏難題建立具備高保真度且可動畫控制的 3…

原文：One-shot Compositional 3D Head Avatars with Deformable Hair

arXiv 全文 ★4 2026-04-16

實測2079題無解測試，前沿VLM預設棄權率近零，寧捏造錯誤也不承認無知。

在面對2079筆刻意設計的無解多模態考題時，當前最先進的視覺語言模型展現出令人擔憂的過度自信。根據ServiceNow Research發布的最新評測，在預設提示條件下，**GPT-5**與**Claude Sonnet 4.5**等前沿模型在面對資訊不足的圖像與文件時，承認「我不知道」的機率逼近於零，且在超過80%…

原文：Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems

arXiv 全文 ★4 2026-04-16

導入推論感知評估框架，將醫療 AI 筆記的幻覺率從 35.2% 精準修正至 9.1%。

醫學文件自動化面臨嚴重評估誤區，當前 AI 審查機制將高達 **35.2%** 的合理臨床推論標記為「幻覺」。**Augnito Research** 最新發布的研究指出，若僅用字面比對來評估大語言模型生成的 SOAP 病歷筆記，會嚴重懲罰模型必備的醫學推斷能力。透過導入醫學知識檢索與推論感知框架，這項被高估的幻覺率…

原文：Beyond Literal Summarization: Redefining Hallucination for Medical SOAP Note Evaluation

ITN Online 全文 ★4 Tue, 17 Ma

ASPC 2026 預告：AI斑塊量化與多模態影像將全面重塑心血管影像報告

血管狹窄大於 70% 才危險的觀念已經過時——實際上高達 30% 的急性心肌梗塞患者，其發病前的冠狀動脈狹窄根本不到 50%。這正是美國預防心臟病學會 (ASPC) 2026 虛擬研討會要翻轉的觀念，宣告放射科正式邁入次臨床斑塊分析的新戰場。 ASPC研討會：從70%狹窄轉向斑塊特徵醫學界對心血管事件的防禦陣線正…

原文：Virtual Cardiac Imaging Symposium to Take Place in April

Karpathy Curated 全文 ★4 2026-04-19

AI 代理推動無頭架構普及，將徹底顛覆傳統 SaaS 的按人頭計費商業模式。

在 2026 年的軟體生態系中，傳統依賴人類透過瀏覽器點擊網頁的互動模式正面臨邊際效益遞減的困境。根據技術專家 Simon Willison 最新引述的產業觀察，未來的個人化 AI 將全面推動無頭化（Headless）架構的普及。當 **Salesforce** 等軟體巨頭開始宣告「API 就是使用者介面」，這不僅意…

原文：Headless everything for personal AI

MarkTechPost 全文 ★4 Sun, 19 Ap

結合 Google Magika 的位元組級精準辨識與 OpenAI 語言分析，能有效防堵副檔名偽造並自動生成資安威脅評估報告。

Google 開源的深度學習模型 **Magika** 能夠直接從檔案的原始位元組（raw bytes）精準辨識格式，徹底打破傳統依賴副檔名的脆弱資安防線。本篇技術導讀將帶領讀者結合 **Magika 1.0.2** 與 **OpenAI API**，建構出能自動攔截偽造檔案、生成威脅評估，並將底層二進位數據轉化為高…

原文：A Coding Implementation to Build an AI-Powered File Type Detection and Security Analysis Pipeline with Magika and OpenAI

MarkTechPost 全文 ★4 Sun, 19 Ap

TabPFN 基礎模型透過上下文學習，在 5,000 筆樣本分類中以 98.8% 準確率擊敗 CatBoost，僅需 0.47 秒即可完成擬合。

處理結構化表格資料（Tabular data）時，決策樹模型長期佔據主流地位。然而，近期一項針對 5,000 筆樣本的分類測試顯示，基於上下文學習架構的 **TabPFN** 基礎模型完全略過傳統的資料集訓練過程，僅花費 **0.47 秒**就完成模型擬合，並以 **98.8%** 的準確率擊敗了主流的 **CatB…

原文：How TabPFN Leverages In-Context Learning to Achieve Superior Accuracy on Tabular Datasets Compared to Random Forest and …

European Radiology 全文 ★4 2026-04-18

化療前的一張乳房攝影，結合 AI 就能以 >0.8 的 AUC 準確預判新輔助治療後腋下淋巴結是否完全緩解，大幅減少過度清掃手術。

僅用化療前的數位乳房攝影，就能準確預測化療後腋下淋巴結是否會達到完全緩解——在加入輔助區域與臨床特徵後，四個獨立資料集的預測 AUC 一舉全數突破 0.8。過去我們認為預測新輔助治療後的淋巴結狀態，必須依賴繁複的術中切片或高階磁振造影，但這篇收錄 956 例的多中心研究證明，運用 Swin Transformer V…

原文：Mammography-based artificial intelligence model for predicting axillary lymph node status after neoadjuvant therapy in b…

AJNR Ahead 全文 ★4 2026-03-20

CTP 單一閾值預測梗塞體積準確率僅 15%，多模態 3D nnU-Net 將成功取栓預測力翻倍。

傳統 CTP 軟體畫出的紅黑圖，可能比你想像中更不準確——在血管完全打通的病患中，常規單一閾值法預測最終梗塞體積的 Dice 分數竟然只有慘烈的 **15.73%**。這意味著我們日常高度依賴的灌注影像自動化軟體，嚴重低估或錯位了真實的組織壞死範圍。透過導入多模態 CTP 參數的深度學習模型，研究團隊成功將預測準確度…

原文：Multi-modal CT Perfusion-based Deep Learning for Predicting Stroke Lesion Outcomes in Complete and No Recanalization Sce…

MarkTechPost 全文 ★4 Sun, 19 Ap

OpenMythos 證實：770M 參數的遞迴深度模型能匹敵 1.3B 傳統架構。

Anthropic 從未對外公開 Claude Mythos 的技術細節，但全新開源專案 **OpenMythos** 透過 PyTorch 進行了理論重建。這套系統證實了僅需 **770M** 參數的遞迴架構，就能達到 **1.3B** 傳統模型的推理能力。揚棄傳統堆疊的 RDT 運算架構主流的語言模型（如 …

原文：Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer

arXiv 全文 ★4 2026-04-15

記憶型錯誤門控演算法讓 AI 僅對錯誤樣本更新權重，成功減少高達 80% 的運算次數。

傳統的反向傳播演算法會對每個樣本更新權重，造成巨大的運算浪費。受大腦「負面偏誤」啟發，新研究證明若僅對當前或過去曾經預測錯誤的樣本進行參數更新，能將網路更新次數大幅減少 **50% 到 80%**。這種「記憶型錯誤門控」不僅維持高泛化能力，更極大降低了模型在持續學習過程的運算與記憶體成本。大腦 ERN 電位啟發神…

原文：Mistake gating leads to energy and memory efficient continual learning

AJNR Ahead 全文 ★4 2026-03-20

透過萃取頭頸癌 CT 影像中肉眼難辨的紋理特徵，我們能以 71% 的準確率預測腫瘤深層的 DNA 拷貝數變異狀態。

頭頸部鱗狀細胞癌的預後不只取決於傳統的解剖分期，更取決於細胞核內的基因體不穩定性，但現在我們居然能直接從一張普通的打藥頸部 CT，以高達 71% 的準確率預測腫瘤的 DNA 拷貝數變異狀態。這意味著那些肉眼看不見的像素排列與灰階異質性，其實偷偷洩漏了癌細胞最深層的基因型態，為未來的非侵入性影像基因體學鋪平了道路。 …

原文：CT Radiomic Features are Associated with DNA Copy Number Alterations of Head and Neck Squamous Cell Carcinomas [ORIGINAL…

arXiv 全文 ★4 2026-04-15

ToxiShield 結合 BERT 與大語言模型，即時偵測、解釋並改寫 GitHub 上的毒性言論，分類準確率達 98%。

軟體工程社群的「有毒」發言不僅破壞團隊協作，更會迫使開發者退出專案。為了解決開源社群長期缺乏即時過濾工具的問題，研究團隊開發了名為 **ToxiShield** 的 GitHub 擴充套件。透過整合自然語言處理與大型語言模型 (LLM)，該系統在過濾 **38,761** 筆程式碼審查樣本時，達到了 **98%** …

原文：ToxiShield: Promoting Inclusive Developer Communication through Real-Time Toxicity Filtering

arXiv 全文 ★4 2026-04-15

ProtoAoA 首創利用原型網路架構，僅依賴 23% 訓練類別就能在 4 筆樣本下將未知訊號定位誤差縮小至 3 度。

只需使用總資料集 **23%** 的類別訓練，模型就能在僅有 **4** 筆未知角度樣本的情況下，將到達角預測誤差縮減至 **3 度**。這份 ProtoAoA 研究展示了原型網路在極缺標註資料時的強大泛化能力。突破深度模型依賴海量資料的到達角估計限制無線通訊中的到達角（Angle-of-Arrival, Ao…

原文：ProtoAoA: Few-Shot Angle-of-Arrival Estimation using Prototypical Networks

arXiv 全文 ★4 2026-04-15

Vi-CD 技術首度在視覺變換器實現邊緣級別電路發現，成功將 CLIP 模型的排版攻擊率壓至 2.8%。

研究團隊提出 Vi-CD 技術，首次在視覺變換器中實現邊緣級別的計算電路發現。數據顯示，它找出關鍵路徑的稀疏度比現有方法高 **10 倍**，且介入電路能將 CLIP 模型的排版攻擊成功率從 **39.1% 降至 2.8%**，讓模型內部機制走向實用防禦。從神經元到計算圖：Vi-CD 突破變換器限制機制可解釋性…

原文：Seeing Through Circuits: Faithful Mechanistic Interpretability for Vision Transformers

arXiv 全文 ★4 2026-04-16

TRACER 利用日誌訓練代理模型，接管 83% 意圖分類流量並省下八成 API 成本。

呼叫 LLM 進行分類會留下免費的標註日誌。開源系統 TRACER 利用這些紀錄訓練代理模型，在 77 類意圖分類測試中接管 83.2% 流量並省下 83% 成本，更在 150 類任務中達成完全替代。利用 LLM 系統日誌啟動零成本標註飛輪開發團隊越來越常使用大型語言模型（LLM）作為零樣本分類器，藉此省下建立…

原文：TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

arXiv 全文 ★4 2026-04-16

天津大學團隊提出 CSRA 頻域擴增框架，在無額外病歷資料下，使短視窗敗血症預測的回歸誤差降低 10.2%。

針對加護病房敗血症的早期預警，當臨床觀察時間縮短，預測模型的準確率往往會大幅下降。天津大學與浙江大學團隊最新提出的 CSRA 頻域資料擴增框架，透過離散餘弦轉換在頻率領域進行微調，在無需增加真實病歷的情況下，成功讓預測回歸誤差（MSE）降低了 10.2%。這項技術在訓練資料僅剩 10% 的極端情境中，依然能維持高水準…

原文：CSRA: Controlled Spectral Residual Augmentation for Robust Sepsis Prediction

arXiv 全文 ★4 2026-04-16

HASOD 框架實現 97.08% 偵測率，免除工業實驗打掉重練的成本浪費。

工業實驗設計長期面臨一個關鍵抉擇：是要先找出影響良率的關鍵變數，還是直接最佳化生產條件？傳統做法需要分兩階段打掉重練，耗時且成本高昂。近期一份 arXiv 論文提出 **HASOD（混合自適應篩選與最佳化設計）** 框架，在 540 次獨立實驗中達到 **97.08%** 的因子偵測準確率，比傳統循序方法大幅提升 *…

原文：HASOD: A Hybrid Adaptive Screening-Optimization Design for High-Dimensional Industrial Experiments

arXiv 全文 ★4 2026-04-16

用柏林雜訊生成物理對抗霧氣，FogFool達成99.96%遙感影像攻擊成功率。

遙感影像分類模型正面臨一種難以察覺的物理性威脅。最新研究提出名為 FogFool 的大氣對抗攻擊框架，放棄傳統的像素級雜訊，改用 Perlin 雜訊生成極具真實感的物理霧氣。在 NWPU 資料集上，這項技術不僅達成 **99.96%** 的無目標攻擊成功率，其黑箱轉移攻擊成功率更突破 **83.74%**。傳統數…

原文：Physically-Induced Atmospheric Adversarial Perturbations: Enhancing Transferability and Robustness in Remote Sensing Ima…

arXiv 全文 ★4 2026-04-16

在無需新增任何參數的情況下，透過導入混沌映射重塑特徵空間，可讓 CNN 在極端少量的訓練樣本下實現高達 9.11% 的準確率提升。

在僅有每類別 40 個訓練樣本的極端資料限制下，傳統卷積神經網路的分類準確率往往大幅下滑。近期一項研究指出，若在網路架構中植入不具額外可訓練參數的混沌映射層，可讓 MNIST 影像的分類表現最高提升 **5.43%**，在 Fashion-MNIST 上甚至繳出 **9.11%** 的成長，為小樣本學習開闢了一條輕量…

原文：Chaotic CNN for Limited Data Image Classification

arXiv 全文 ★4 2026-04-16

OmniGCD 透過單次合成資料訓練，在 4 大模態 16 個資料集中達成零微調類別發現，文字準確率提升 17.9%。

人類大腦在學習分類時，不會因為看到畫面或聽到聲音而切換截然不同的底層機制。澳洲昆士蘭科技大學團隊提出的 OmniGCD 模型模仿了這種抽象分類能力，它完全不依賴特定資料集的微調，僅靠一次純合成資料訓練，就能在視覺、文字、音訊與遙測等 4 種模態的 16 個資料集上達成廣義類別發現，文字分類準確率甚至躍升了 **17.…

原文：OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism