arXiv
全文
★4
2026-04-17
傳統自動駕駛賽局模型預測控制常因頻繁計算奈許均衡,導致系統運算嚴重過載。維吉尼亞理工團隊提出的時間分佈迭代解法,在 **5** 輛車的無號誌路口模擬中,證明僅需 **3** 次極限迭代即可大幅降低運算延遲,讓龐大運算量的多車賽局演算法具備即時落地的潛力。 自動駕駛賽局模型預測控制(GT-MPC)的運算瓶頸 自駕車在…
原文:Real-Time Solution-Seeking for Game-Theoretic Autonomous Driving via Time-Distributed Iterations
European Radiology
全文
★4
2026-Apr-07
曾經高達 C-statistic **0.78** 的神準影像組學模型,換了一批病患後,預測能力竟暴跌到與丟銅板無異的 **0.39**。這項針對大腸直腸癌肝轉移熱消融後局部復發的多中心外部驗證研究,無情地戳破了人工智慧預測的過度樂觀,提醒我們在未經獨立驗證前,別輕易把演算法的訓練結果當成臨床決策的依據。 53% …
原文:Do MRI radiomic models truly generalize? External validation of three studies in parotid lesion characterization.
arXiv
全文
★4
2026-04-17
透過刪減不需要的語言詞彙,開源語言模型的字典大小可減少高達 **36%**,且在韓語到英語的機器翻譯評測中,**Llama-3.1-8B-Inst** 的分數從 0.5879 顯著提升至 0.6342。面對多語言語言模型帶來的記憶體負擔與語言混淆問題,詞彙剪枝(Token Pruning)成為一種極具潛力的模型壓縮技…
原文:Optimizing Korean-Centric LLMs via Token Pruning
Korean J Radiol
全文
★4
2026-Apr-01
看似先進的棲地放射組學模型,反而會讓預測精準度倒退——當你把高維度特徵硬套在沒有生物學標準答案的叢集上,得到的往往是缺乏臨床意義的黑盒子。這篇文章明確指出,透過無監督學習切分出的腫瘤棲地,實際上只是機率性的空間分佈,例如某個體積像素可能只是呈現 **80%** 棲地 X 與 **20%** 棲地 Y 的特徵,而非絕對…
原文:Uncover This Tech Term: Tumor Habitat Analysis.
European Radiology
全文
★4
2026-Apr-17
常規外傷 X 光報告的骨質流失敏感度僅 30%,若直接拿去訓練 AI 將引發嚴重資訊偏誤。這份研究精準拆解了臨床報告的真實數據,揭示骨折診斷高達 97% 的敏感度背後,哪些次要發現是演算法不能依賴的毒藥。 618 筆外傷 X 光檢驗:臨床報告對決雙盲閱片 訓練醫療 AI(人工智慧,讓電腦模擬人類判讀影像)需要海量且…
原文:Independent bone-level diagnostic accuracy study of an AI tool for detecting appendicular skeletal fractures on radiogra…
RadioGraphics
全文
★4
2026-Mar
單憑 T1 加權影像預測臨床孤立症候群轉化為多發性硬化症,準確率竟然等同於盲猜。多發性硬化症的病程高度異質,即使臨床發現了滿腦子的白質病灶,數量卻經常與實際失能程度脫鉤,使得及早投藥的決策充滿變數。然而,透過機器學習結合進階的磁振造影生物標記,最新的預測模型已經將特異度推升至 **50%**,直接翻倍超越傳統 McD…
原文:Conventional and Emerging MRI Biomarkers of Multiple Sclerosis.
arXiv
全文
★4
2026-04-16
現有單圖 3D 頭部生成技術中,控制臉部動作的數十個幾何參數往往將語音與「情感」隱式打包,導致難以針對單一情緒進行獨立且一致的修改。這篇來自南京大學與微軟亞洲研究院的研究,提出將情感獨立為第一類顯式控制訊號。透過全新的雙路徑調變機制,讓 3D 虛擬人能在完全不改變原有前饋網路架構的條件下,展現獨立於語音的精準情感變化…
原文:Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars
arXiv
全文
★4
2026-04-16
NTIRE 2026 影像超解析度(x4)挑戰賽共吸引 **194 名**註冊參賽者,最終由 **SamsungAICamera** 團隊以破紀錄的 **33.73 dB** 峰值信噪比(PSNR)奪下雙軌賽道冠軍。本屆賽事標誌著技術典範的轉移,兩階段架構與擴散模型已正式取代傳統單一網路,成為突破視覺感知與像素保真度…
原文:The Fourth Challenge on Image Super-Resolution ($\times$4) at NTIRE 2026: Benchmark Results and Method Overview
Korean J Radiol
全文
★4
2025-Nov
就算沒有心電圖閘控,AI 算出的總體鈣化分數與人工圈選的 ICC 仍高達 **0.992**,但演算法有高達 **38.9%** 的極端誤差來自把 LAD 鈣化誤認為左主幹。這項針對 913 位胃癌與大腸癌病患的非顯影胸部 CT 分析證實,利用例行癌症追蹤影像來篩檢潛在心血管風險已具備高度臨床可行性。只是在極端值中,…
原文:Comments on "Impact of Deep Learning-Based Image Conversion on Fully Automated Coronary Artery Calcium Scoring Using Thi…
arXiv
全文
★4
2026-04-16
傳統的 2D 深度偽造(Deepfake)檢測技術在面對高畫質或極度模糊的造假影像時經常失效。為了解決這項痛點,華南農業大學研究團隊提出 **M3D-Net** 雙流網路架構,透過單一視角 RGB 影像重建臉部的反照率與深度特徵。這項結合 3D 空間特徵與 RGB 影像的多模態融合技術,在主流的 FF++(c23) …
原文:M3D-Net: Multi-Modal 3D Facial Feature Reconstruction Network for Deepfake Detection
arXiv
全文
★4
2026-04-16
傳統擴散模型在編輯 1024px 高解析度圖像時,往往需要等待數十秒並受困於反演誤差。最新發表於 arXiv 的研究提出 Masked Logit Nudging (MLN) 方法,能在不依賴反演的視覺自迴歸 (VAR) 模型架構下,將 1024px 圖像編輯時間大幅壓縮至 **1.6 秒**,同時在多項標準測試中達…
原文:Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models
arXiv
全文
★4
2026-04-16
傳統壓縮演算法在低位元率常面臨信號模糊問題,促成了率-失真-感知(RDP)框架的廣泛應用。北京郵電大學團隊證明,若將壓縮目標從「還原信號本身」轉為「落入特定同義集」,感知品質必備的分佈散度即可純數學推導自然浮現,無須仰賴外部假設。 解析 RDP 理論缺口:將分佈散度轉為數學推導 在自然信號壓縮領域,傳統上由夏農(S…
原文:A Synonymous Variational Perspective on the Rate-Distortion-Perception Tradeoff
Korean J Radiol
全文
★4
2025-Dec
讓模型把思考過程寫下來的 Chain-of-Thought 技巧,並非所有 AI 的萬靈丹。在萃取狹窄嚴重度時,它讓 GPT-4 的外部測試準確率暴增 19.2%,但對於內建多步推理架構的 o1-mini,準確率改變卻微乎其微(-4.1% 到 +2.0%)。這種提示詞的邊際效應,展示了不同模型處理結構化醫療報告的底層…
原文:Response to "When AI Meets Coronary CT: Overcoming Challenges and Enhancing Accuracy in CAD-RADS Reporting".
Korean J Radiol
全文
★4
2025-Dec
即使把總膽固醇、高低密度脂蛋白與三酸甘油酯等核心抽血數據全部刪除,GPT-4 預測十年內心血管重大不良事件的精準度依然高達 **AUROC 0.722**,幾乎沒有因為變數短缺而掉分。這完全顛覆了我們過去對風險預測模型必須仰賴完整結構化參數的既有認知,比起只要缺一項數值就無法計算的傳統量表,大型語言模型展示了在殘缺病…
原文:Minimum Reporting Items for Clear Evaluation of Accuracy Reports of Large Language Models in Healthcare (MI-CLEAR-LLM): …
arXiv
全文
★4
2026-04-16
在通用語音增強(USE)領域,純生成式模型雖然能提供極高的聽覺品質,卻常伴隨嚴重的「幻覺」問題——產生錯誤字詞或改變說話者特徵。南京大學與地平線機器人團隊提出的 **UniPASE** 是一個具備 **545.7M** 參數的生成式架構,成功解決了這個難題。該模型在 URGENT 2025 挑戰賽的客觀評測中奪得第 …
原文:UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations
Korean J Radiol
全文
★4
2025-Dec
看似 AI 演算法誤判的 333 個假陽性鈣化點中,經過資深主治醫師覆核後,竟然有高達 15.9% 是人類放射科醫師當初漏看的真實病灶。 從 30 分鐘縮短到 57 秒的無對比劑冠狀動脈 AI 自動評估 自從 1990 年 Agatston score 被提出以來,評估冠狀動脈鈣化(CAC)始終高度依賴放射線人員的…
原文:When AI Meets Coronary CT: Overcoming Challenges and Enhancing Accuracy in CAD-RADS Reporting.
Korean J Radiol
全文
★4
2025-Dec
以為 AI 能輾壓放射科老鳥?本研究證實,半年資歷新手在 AI 輔助下,COVID-19 敏感度從 **38.89%** 暴衝至 **62.50%**,但兩年以上經驗的老鳥反倒未受惠。這清楚點出深度學習的最佳用途:拉拔初階醫師。 分辨三類胸部 X 光影像變化的急診分流需求 面對突如其來的傳染病疫情爆發,急診與發燒篩…
原文:Access and Reimbursement for Artificial Intelligence in Radiology: A Singapore Perspective.
arXiv
全文
★4
2026-04-16
在短影音盛行的時代,將 16:9 影片無縫擴展為 9:16 等多樣比例,一直是內容創作的挑戰。來自延世大學與 GenGenAI 的研究團隊提出 Seen-to-Scene 框架,首度將光流傳播與擴散模型統一,在 YouTube-VOS 數據集的測試中,該方法在無需微調的 Zero-shot 條件下,將評估影片品質的 …
原文:Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting
arXiv
全文
★4
2026-04-16
在衛星通訊與水下探測等極端環境中,傳輸語音的資料額度往往被壓縮至每秒僅 **200 bps**。清華大學與華為聯合提出的 **ClariCodec** 神經語音編碼器,透過導入強化學習(RL)技術將語音壓縮至此極限,並在 LibriSpeech 測試集中達成 **3.20%** 的字錯率(WER)。該系統成功在耗用頻…
原文:ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning
Korean J Radiol
全文
★4
2025-Dec
把非標準化 CT 轉換為標準格式後,雖然整體纖維化量化準確率翻倍,但毛玻璃病變的像素召回率卻從 42% 暴跌至 19%。跨廠牌與重建參數的影像轉換,確實能讓人工智慧辨識蜂窩狀改變與網狀病灶的 Dice 相似係數從 0.19 大幅爬升至 0.47,但並非所有間質性肺病特徵都能在生成式對抗網路的轉換下受益。 解決跨院區…
原文:Effects of Computed Tomography Technical Parameters on Body-Composition Analysis.
arXiv
全文
★4
2026-04-16
測量地表下深處的溫度與地質結構,過去往往仰賴耗資龐大且分布不均的地質鑽孔與地球物理探勘。然而,勞倫斯柏克萊國家實驗室(LBNL)的最新研究證實,透過分析地表的地理特徵,我們能精準推算難以觀測的地底狀況。研究團隊利用 **Google AlphaEarth Foundations** 產生的 64 維度地理空間嵌入向量…
原文:Subsurface Property Mapping using Google AlphaEarth Foundations
arXiv
全文
★4
2026-04-16
視覺幾何基礎模型(VGFMs)在短影格的 3D 重建任務中展現了驚人的零樣本能力,但當系統軌跡拉長至公里級距時,直接套用現有框架卻經常遭遇災難性的地圖發散。為了跨越這道鴻溝,研究團隊提出 **CAL²M** 框架,透過引入一顆無須事前校正的「輔助鏡頭」,僅憑藉保持恆定物理間距的假設,便能從根本上消除單鏡頭難解的尺度模…
原文:Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye
arXiv
全文
★4
2026-04-16
傳統磁振造影常丟棄相位,導致腦腫瘤初診與病理結果產生 30% 分歧。一項基於 6,970 筆掃描的新研究,打造首個能同時生成振幅與相位的流匹配模型。完全以合成數據訓練的分類器,準確率竟超越真實資料基準。 突破常規 MRI 侷限:找回被丟棄的腫瘤相位資訊 2022 年全球通報超過 **320,000** 起大腦與中樞…
原文:Generative Modeling of Complex-Valued Brain MRI Data
Korean J Radiol
全文
★4
2026-Jan
香港公營醫療體系承擔了超過 90% 的病患照護,AI 系統不再只是實驗室產物,而是急診與門診維持運作的基礎設施。如何將演算法無縫嵌入既有的臨床管理系統,並解決跨科溝通與語言障礙,成為放射科必須面對的管理課題。 公營體系 90% 病患與雙軌資訊系統的整合挑戰 探討人工智慧在放射科的應用,不能脫離當地的醫療基礎設施。在…
原文:Access for Artificial Intelligence in Radiology: A Hong Kong Perspective.
arXiv
全文
★4
2026-04-16
目前阿茲海默症(AD)的確診高度仰賴昂貴且具侵入性的正子造影(PET)或腦脊髓液(CSF)分析。為了尋找更親民的非侵入性篩檢方案,最新研究透過分析 1,988 筆跨廠牌的 T1 加權磁振造影(MRI)影像,提出結合超級頂點視覺變壓器(SV-ViT)的升級版多尺度結構映射(MSSM+)技術。這項開源模型在區分 AD 與…
原文:Improved Multiscale Structural Mapping with Supervertex Vision Transformer for the Detection of Alzheimer's Disease Neur…
arXiv
全文
★4
2026-04-16
毫米波(mmWave)通訊雖然能提供超高頻寬,但其高度定向的波束極易受到實體阻擋,傳統依賴精確通道狀態資訊(CSI)的波束對齊方式成本過高且容易失效。Bilkent 大學研究團隊提出了一種名為 SAT-CTS 的機器學習演算法,直接跳過 CSI 估測,僅透過終端設備回傳的二元 ACK/NACK 訊號,就能確保每個用戶…
原文:Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits
arXiv
全文
★4
2026-04-16
傳統3D深度學習常將精確的CAD模型轉換為由大量三角形組成的網格,這種降維直接抹除了模型原有的幾何曲面與拓撲關係。為了在不犧牲精度下建立機器學習所需的標註,最新研究提出自動化標記工具STEP-Parts,能在消費級CPU上以不到6小時的時間,完成超過18萬個CAD模型的實例分割。這套直接從底層格式抽取特徵的系統,填補…
原文:STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing
arXiv
全文
★4
2026-04-16
西班牙 Cueva de la Victoria 溶洞內記錄了 **335 GB**、共計 **24 個序列**的多模態環境數據,並具備 **120 Hz** 毫米級動作捕捉系統真值,這構成了最新的 CAVERS 資料集。相較於結構規則的人工地下環境,天然喀斯特(karstic)溶洞的極端不規則幾何與完全無光特徵,為…
原文:CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture
arXiv
全文
★4
2026-04-15
亞利桑那州立大學(ASU)研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA,透過將強化學習拆解至去噪步驟層級(Step-level),在不引入額外數學近似誤差的情況下,直接融合多個單一目標的預訓練模型。實驗數據顯示,當同時要求圖像符合文本對齊與視覺美感雙重指標時,該方法不僅生成分數勝過傳統 Reward S…
原文:Step-level Denoising-time Diffusion Alignment with Multiple Objectives
arXiv
全文
★4
2026-04-15
人類能從一張酥脆炸雞的照片,瞬間腦補出香氣與咬下的喀滋聲,但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題,研究團隊推出涵蓋 **66,842** 筆人類標註的 **FoodSense** 數據集,首度賦予模型看圖推論食物味覺與聲音的能力。 建構六萬筆標註的 FoodSense 數據集 在傳統的視覺語言模…
原文:FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images