arXiv — RadPulse

arXiv 全文 ★4 AI 2026-04-16

NTIRE 2026 超解析度賽事由 SamsungAICamera 以 33.73 dB 奪冠，兩階段架構與擴散模型成為技術新標竿。

NTIRE 2026 影像超解析度（x4）挑戰賽共吸引 **194 名**註冊參賽者，最終由 **SamsungAICamera** 團隊以破紀錄的 **33.73 dB** 峰值信噪比（PSNR）奪下雙軌賽道冠軍。本屆賽事標誌著技術典範的轉移，兩階段架構與擴散模型已正式取代傳統單一網路，成為突破視覺感知與像素保真度…

原文：The Fourth Challenge on Image Super-Resolution ($\times$4) at NTIRE 2026: Benchmark Results and Method Overview

arXiv 全文 ★4 AI 2026-04-16

M3D-Net 透過單張影像重建 3D 反照率與深度特徵，結合多模態融合技術，在 FF++ 資料集達到 0.9746 AUC 分數。

傳統的 2D 深度偽造（Deepfake）檢測技術在面對高畫質或極度模糊的造假影像時經常失效。為了解決這項痛點，華南農業大學研究團隊提出 **M3D-Net** 雙流網路架構，透過單一視角 RGB 影像重建臉部的反照率與深度特徵。這項結合 3D 空間特徵與 RGB 影像的多模態融合技術，在主流的 FF++(c23) …

原文：M3D-Net: Multi-Modal 3D Facial Feature Reconstruction Network for Deepfake Detection

arXiv 全文 ★4 AI 2026-04-16

MLN 演算法在視覺自迴歸模型中實現免反演編輯，1024px 圖像處理僅需 1.6 秒。

傳統擴散模型在編輯 1024px 高解析度圖像時，往往需要等待數十秒並受困於反演誤差。最新發表於 arXiv 的研究提出 Masked Logit Nudging (MLN) 方法，能在不依賴反演的視覺自迴歸 (VAR) 模型架構下，將 1024px 圖像編輯時間大幅壓縮至 **1.6 秒**，同時在多項標準測試中達…

原文：Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models

arXiv 全文 ★4 AI 2026-04-16

北郵最新論文證實：轉向同義集重建，感知分佈散度即可從數學推導自然浮現。

傳統壓縮演算法在低位元率常面臨信號模糊問題，促成了率-失真-感知（RDP）框架的廣泛應用。北京郵電大學團隊證明，若將壓縮目標從「還原信號本身」轉為「落入特定同義集」，感知品質必備的分佈散度即可純數學推導自然浮現，無須仰賴外部假設。解析 RDP 理論缺口：將分佈散度轉為數學推導在自然信號壓縮領域，傳統上由夏農（S…

原文：A Synonymous Variational Perspective on the Rate-Distortion-Perception Tradeoff

arXiv 全文 ★4 AI 2026-04-16

UniPASE 透過雙流生成架構解決語音增強幻覺，在 DNS 2020 展現 2.17% 極低字錯率，奪下 URGENT 2025 客觀評測冠軍。

在通用語音增強（USE）領域，純生成式模型雖然能提供極高的聽覺品質，卻常伴隨嚴重的「幻覺」問題——產生錯誤字詞或改變說話者特徵。南京大學與地平線機器人團隊提出的 **UniPASE** 是一個具備 **545.7M** 參數的生成式架構，成功解決了這個難題。該模型在 URGENT 2025 挑戰賽的客觀評測中奪得第 …

原文：UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations

arXiv 全文 ★4 infrastructure 2026-04-16

全新模數編碼系統結合曝光解耦與免迭代演算法，在達成 1000 FPS 全彩 HDR 攝影的同時，將資料傳輸頻寬暴減 70%。

傳統高速脈衝相機（Spike Camera）為捕捉極限動態範圍，往往需要高達 **20 Gbps** 的驚人傳輸頻寬，這使得高解析度連續拍攝在硬體上難以規模化。來自北京大學與日本國立情報學研究所的研究團隊，近期提出一套全新的模數編碼（Modulo-Encoded）HDR 系統，在維持 **1000 FPS** 全彩捕…

原文：High-Speed Full-Color HDR Imaging via Unwrapping Modulo-Encoded Spike Streams

arXiv 全文 ★4 general 2026-04-16

上海大學團隊證實可透過解析邊界的極點跳躍現象，精確還原出 3維與 4維旋轉黑洞的完整內部幾何結構。

全像對偶理論（Holographic duality）將深不可測的黑洞內部幾何，巧妙映射為邊界上的量子數據。來自上海大學等機構的物理團隊最新證實，透過解析邊界上出現「0/0」未定義形式的極點跳躍現象，能夠反向推導出 3維與 4維旋轉黑洞的完整時空度規，甚至將複雜的愛因斯坦真空方程式轉化為純代數問題。靜態拓樸黑洞與…

原文：Probing bulk geometry via pole skipping: from static to rotating spacetimes

arXiv 全文 ★4 AI 2026-04-16

Seen-to-Scene 框架首創光流傳播與擴散模型融合，Zero-shot 條件下將影片擴展的 FVD 提升 6.7%。

在短影音盛行的時代，將 16:9 影片無縫擴展為 9:16 等多樣比例，一直是內容創作的挑戰。來自延世大學與 GenGenAI 的研究團隊提出 Seen-to-Scene 框架，首度將光流傳播與擴散模型統一，在 YouTube-VOS 數據集的測試中，該方法在無需微調的 Zero-shot 條件下，將評估影片品質的 …

原文：Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting

arXiv 全文 ★4 AI 2026-04-16

僅需 200 bps 頻寬，強化學習編碼器即可達成 3.20% 極低字錯率。

在衛星通訊與水下探測等極端環境中，傳輸語音的資料額度往往被壓縮至每秒僅 **200 bps**。清華大學與華為聯合提出的 **ClariCodec** 神經語音編碼器，透過導入強化學習（RL）技術將語音壓縮至此極限，並在 LibriSpeech 測試集中達成 **3.20%** 的字錯率（WER）。該系統成功在耗用頻…

原文：ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning

arXiv 全文 ★4 infrastructure 2026-04-16

新技術運用相關不變性，無需校準與訓練，即能在動態散射的大氣環境中實現 98.97% 數據傳輸準確率。

大氣湍流等動態環境常導致光學數據傳輸崩潰，但一項基於相關不變性的新技術成功在時變干擾中實現 **98.97%** 的高還原準確率。該研究完全免除機器學習與預先校準，透過單次拍攝即可重建軌道角動量多工光束，解決了高頻寬光通訊面對環境干擾的長期障礙。軌道角動量多工技術與動態散射介質的衝突現代通訊網路對頻寬的需求呈現…

原文：Correlation invariance unlocks robust calibration-free orbital-angular-momentum multiplexing transmission under dynamic …

arXiv 全文 ★4 AI 2026-04-16

LBNL 團隊運用 Google AlphaEarth 的 64 維度地理空間向量，成功在美國本土預測深達 6000 公尺的地底溫度，誤差僅 6.0°C。

測量地表下深處的溫度與地質結構，過去往往仰賴耗資龐大且分布不均的地質鑽孔與地球物理探勘。然而，勞倫斯柏克萊國家實驗室（LBNL）的最新研究證實，透過分析地表的地理特徵，我們能精準推算難以觀測的地底狀況。研究團隊利用 **Google AlphaEarth Foundations** 產生的 64 維度地理空間嵌入向量…

原文：Subsurface Property Mapping using Google AlphaEarth Foundations

arXiv 全文 ★4 AI 2026-04-16

CAL²M 引入恆定間距的輔助鏡頭，成功讓視覺基礎模型實現無事前校正的公里級 SLAM 建圖。

視覺幾何基礎模型（VGFMs）在短影格的 3D 重建任務中展現了驚人的零樣本能力，但當系統軌跡拉長至公里級距時，直接套用現有框架卻經常遭遇災難性的地圖發散。為了跨越這道鴻溝，研究團隊提出 **CAL²M** 框架，透過引入一顆無須事前校正的「輔助鏡頭」，僅憑藉保持恆定物理間距的假設，便能從根本上消除單鏡頭難解的尺度模…

原文：Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye

arXiv 全文 ★4 AI 2026-04-16

結合相位的磁振造影生成模型，以純合成數據訓練的異常辨識率反超真實病例。

傳統磁振造影常丟棄相位，導致腦腫瘤初診與病理結果產生 30% 分歧。一項基於 6,970 筆掃描的新研究，打造首個能同時生成振幅與相位的流匹配模型。完全以合成數據訓練的分類器，準確率竟超越真實資料基準。突破常規 MRI 侷限：找回被丟棄的腫瘤相位資訊 2022 年全球通報超過 **320,000** 起大腦與中樞…

原文：Generative Modeling of Complex-Valued Brain MRI Data

arXiv 全文 ★4 AI 2026-04-16

Bilkent 大學研究團隊提出 SAT-CTS 演算法，捨棄傳統通道狀態估測，僅靠二元回饋即可讓毫米波網路快速達到 2.5 Gbps 的平均吞吐量門檻。

毫米波（mmWave）通訊雖然能提供超高頻寬，但其高度定向的波束極易受到實體阻擋，傳統依賴精確通道狀態資訊（CSI）的波束對齊方式成本過高且容易失效。Bilkent 大學研究團隊提出了一種名為 SAT-CTS 的機器學習演算法，直接跳過 CSI 估測，僅透過終端設備回傳的二元 ACK/NACK 訊號，就能確保每個用戶…

原文：Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits

arXiv 全文 ★4 AI 2026-04-16

6小時提取18萬CAD模型，STEP-Parts標籤推升3D網路表現

傳統3D深度學習常將精確的CAD模型轉換為由大量三角形組成的網格，這種降維直接抹除了模型原有的幾何曲面與拓撲關係。為了在不犧牲精度下建立機器學習所需的標註，最新研究提出自動化標記工具STEP-Parts，能在消費級CPU上以不到6小時的時間，完成超過18萬個CAD模型的實例分割。這套直接從底層格式抽取特徵的系統，填補…

原文：STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing

arXiv 全文 ★4 infrastructure 2026-04-16

多面體網格的相變模擬能徹底消除傳統結構化網格中高達四重的各向異性誤差。

傳統 CFD 沸騰模擬多受限於結構化網格。瑞士保羅謝爾研究所近期發表新框架，首度將代數 VOF 與幾何重建應用於任意多面體網格。研究更揭示驚人結論：標準笛卡爾網格會引發高達四重的各向異性誤差使氣泡變形，反而不規則多面體網格能完美抵消偏差，實現各向同性生長。突破複雜幾何限制的非結構化 VOF 相變模擬沸騰是工業界…

原文：Sharp-interface VOF method for phase-change simulations on unstructured meshes

arXiv 全文 ★4 AI 2026-04-16

西班牙喀斯特溶洞收集了 335GB 多模態數據與 120Hz 動作捕捉真值，彌補了天然惡劣地下環境的 SLAM 測試資料空白。

西班牙 Cueva de la Victoria 溶洞內記錄了 **335 GB**、共計 **24 個序列**的多模態環境數據，並具備 **120 Hz** 毫米級動作捕捉系統真值，這構成了最新的 CAVERS 資料集。相較於結構規則的人工地下環境，天然喀斯特（karstic）溶洞的極端不規則幾何與完全無光特徵，為…

原文：CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture

arXiv 全文 ★4 AI 2026-04-15

ASU 團隊提出無須重新訓練的 MSDDA 擴散模型對齊框架，透過步驟層級最佳化徹底消除多目標融合時的近似誤差。

亞利桑那州立大學（ASU）研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA，透過將強化學習拆解至去噪步驟層級（Step-level），在不引入額外數學近似誤差的情況下，直接融合多個單一目標的預訓練模型。實驗數據顯示，當同時要求圖像符合文本對齊與視覺美感雙重指標時，該方法不僅生成分數勝過傳統 Reward S…

原文：Step-level Denoising-time Diffusion Alignment with Multiple Objectives

arXiv 全文 ★4 AI 2026-04-15

FoodSense 數據集釋出，讓視覺大模型首度學會看圖預測食物味道與聲音。

人類能從一張酥脆炸雞的照片，瞬間腦補出香氣與咬下的喀滋聲，但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題，研究團隊推出涵蓋 **66,842** 筆人類標註的 **FoodSense** 數據集，首度賦予模型看圖推論食物味覺與聲音的能力。建構六萬筆標註的 FoodSense 數據集在傳統的視覺語言模…

原文：FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images

arXiv 全文 ★4 infrastructure 2026-04-15

2025年曼尼托巴省野火數據證實，隨著火災輻射功率上升，災區網路延遲一度飆升至超越國際通訊標準極限的1500毫秒。

2025 年加拿大曼尼托巴省（Manitoba）遭遇了近 30 年來最嚴峻的野火季節，超過 **890 萬公頃**的土地遭到大火吞噬。當多數氣候研究仍聚焦於火勢預測與生態破壞時，一項針對該省野火期間的最新研究，將目光轉向了一個常被忽視的災情基礎設施指標：網路連線效能。真實世界的測速數據顯示，隨著野火強度攀升，災區網路…

原文：Spatiotemporal Analysis of VIIRS Satellite Observations and Network Traffic During the 2025 Manitoba Wildfires

arXiv 全文 ★4 AI 2026-04-15

新 RAG 架構將脈絡縮至 1/10，零額外儲存空間即可維持傳統生成效能。

裝置端 AI 面臨記憶體與儲存考驗。最新 arXiv 研究提出整合檢索與壓縮的單一模型，將上下文大砍至傳統的 **1/10**。新技術在零額外儲存負擔下維持既有效能，為本地端處理敏感資料徹底擺脫對雲端的依賴。傳統雲端 RAG 部署面臨的隱私與連線挑戰傳統的 **RAG（檢索增強生成，一種結合外部資料庫以提升 A…

原文：A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation

arXiv 全文 ★4 general 2026-04-15

研究提出分層傾向分數加權指南，界定 3 種必須採用分層策略的臨床情境，提升醫療數據因果推論準確度。

在缺乏隨機對照實驗的觀察性研究中，如何從龐大且混雜的電子健康紀錄精準估算治療效果，一直是臨床統計的一大挑戰。最新發表於 arXiv 的研究提出一套分層傾向分數加權實用指南，明確定義了 **3** 種必須優先採用分層策略的臨床異質性情境，為處理複雜醫療數據的基準平衡提供系統性解法。電子健康紀錄的異質性與傾向分數加權…

原文：Propensity Score Weighting to Ensure Balance in Key Subgroups or Strata: A Practical Guide

arXiv 全文 ★4 infrastructure 2026-04-15

BIEVR-LIO 透過 0.05 公尺解析度的凹凸影像體素地圖，在 700 公尺極端無特徵隧道中達成穩定定位，並使運算點數減少四倍。

當移動機器人駛入筆直的地鐵隧道或廣袤的平坦草地時，缺乏幾何特徵往往導致主流的光達慣性里程計定位偏移甚至完全失效。蘇黎世聯邦理工學院（ETH Zurich）團隊提出的 **BIEVR-LIO** 系統，透過在空間體素地圖中嵌入解析度高達 **0.05** 公尺的「凹凸影像」，成功捕捉環境中肉眼難以察覺的微小表面起伏。這…

原文：BIEVR-LIO: Robust LiDAR-Inertial Odometry through Bump-Image-Enhanced Voxel Maps

arXiv 全文 ★4 AI 2026-04-15

透過視覺特徵階層化與動態問答引導，新標註框架成功將資料集一致性提升至0.974，並讓電腦視覺模型準確率大幅躍升。

在現有的主流影像資料集中，一張標示為「棕熊」的照片可能同時包含真實的熊、泰迪熊娃娃、卡通畫，甚至是穿著熊布偶裝的人。為了解決這類由人類主觀認知造成的標註混亂，倫敦大學學院與特倫托大學的研究團隊提出基於視覺特徵的群眾外包標註框架，成功將標註一致性指標 Krippendorff’s Alpha 提升至 0.974，並使 …

原文：Crowdsourcing of Real-world Image Annotation via Visual Properties

arXiv 全文 ★4 AI 2026-04-15

非同步機率集成將通訊成本壓縮破千倍，並維持高達 0.9822 準確率。

一套針對災難救援設計的非同步機率集成框架，成功將邊緣裝置的模型通訊成本從 **255 MB** 巨幅壓縮至 **150 KB**，降幅破千倍。透過交換輕量化類別機率向量取代龐大權重，系統在影像辨識上維持 **0.9822** 的頂尖準確率，徹底解決災區網路不穩造成的同步癱瘓問題。傳統聯邦學習在無人機災區偵測的通訊…

原文：Asynchronous Probability Ensembling for Federated Disaster Detection

arXiv 全文 ★4 general 2026-04-16

搭載32通道生物阻抗感測的戒指，成功結合神經網絡實現連續無袖帶血壓估測。

由 14 位跨機構學者共同研發的穿戴式血流動力學影像戒指，成功整合了 **8 個電極**與 **32 通道**生物阻抗感測技術。在 **96 名**健康受試者的實證測試中，這套微型裝置成功捕捉指動脈的脈動血流電導率影像，並結合神經網絡演算法實現無袖帶連續血壓波形的精準估測。突破單一感測侷限與臨床高保真影像的空間限…

原文：A wearable electrical hemodynamic imaging ring

arXiv 全文 ★4 AI 2026-04-16

僅用4張正常樣本，H2VLR 透過異構超圖推論在 MVTec 創下 97.96% 準確率，打破視覺語言模型局部比對限制。

僅需 4 張正常樣本，**H2VLR** 框架就能在 **MVTec** 工業數據集達到 **97.96%** 的異常檢測準確率，甚至超越使用全量數據訓練的模型。傳統視覺語言模型在少樣本異常檢測中，往往依賴單一的圖像區塊與文字特徵比對，容易漏判具備結構性關聯的微小瑕疵。中國電子科技大學團隊提出的異構超圖推論架構，打破…

原文：H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection

arXiv 全文 ★4 AI 2026-04-16

南加州大學團隊證實，僅憑傷後 7 天內的常規病歷文本，大型語言模型就能以 0.892 的準確率預測創傷後癲癇。

南加州大學團隊證實，僅憑受傷後 7 天內的常規臨床紀錄，不依賴昂貴神經影像，大型語言模型就能以高達 **0.892** 的 AUC-ROC 準確率預測創傷後癲癇。這項涵蓋 **256** 名患者的研究，展現了純文本資料預測高風險神經疾病的潛力。取代昂貴神經影像的 TRACK-TBI 臨床紀錄創傷後癲癇（PTE）…

原文：Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings

arXiv 全文 ★4 AI 2026-04-16

上海科技大學提出全新影片物件插入技術，結合多視角先驗與幾何一致性模組，成功達到 23.22 PSNR。

上海科技大學研究團隊近期提出全新的影片物件插入（Video Object Insertion）框架，透過結合 3D 多視角先驗技術，成功在邊界框控制條件下達到 **23.22** 的 PSNR 與 **0.9026** 的 SSIM，大幅超越現有基準模型。這項研究突破了過去單張參考圖像容易導致的物體變形與身份漂移問題…

原文：Controllable Video Object Insertion via Multiview Priors

📖 arXiv

NTIRE 2026 超解析度賽事由 SamsungAICamera 以 33.73 dB 奪冠，兩階段架構與擴散模型成為技術新標竿。

M3D-Net 透過單張影像重建 3D 反照率與深度特徵，結合多模態融合技術，在 FF++ 資料集達到 0.9746 AUC 分數。

MLN 演算法在視覺自迴歸模型中實現免反演編輯，1024px 圖像處理僅需 1.6 秒。

北郵最新論文證實：轉向同義集重建，感知分佈散度即可從數學推導自然浮現。

UniPASE 透過雙流生成架構解決語音增強幻覺，在 DNS 2020 展現 2.17% 極低字錯率，奪下 URGENT 2025 客觀評測冠軍。

全新模數編碼系統結合曝光解耦與免迭代演算法，在達成 1000 FPS 全彩 HDR 攝影的同時，將資料傳輸頻寬暴減 70%。

上海大學團隊證實可透過解析邊界的極點跳躍現象，精確還原出 3維與 4維旋轉黑洞的完整內部幾何結構。

Seen-to-Scene 框架首創光流傳播與擴散模型融合，Zero-shot 條件下將影片擴展的 FVD 提升 6.7%。

僅需 200 bps 頻寬，強化學習編碼器即可達成 3.20% 極低字錯率。

新技術運用相關不變性，無需校準與訓練，即能在動態散射的大氣環境中實現 98.97% 數據傳輸準確率。

LBNL 團隊運用 Google AlphaEarth 的 64 維度地理空間向量，成功在美國本土預測深達 6000 公尺的地底溫度，誤差僅 6.0°C。

CAL²M 引入恆定間距的輔助鏡頭，成功讓視覺基礎模型實現無事前校正的公里級 SLAM 建圖。

結合相位的磁振造影生成模型，以純合成數據訓練的異常辨識率反超真實病例。

最新 SV-ViT 模型結合 MSSM+ 多尺度特徵，透過 1988 筆跨廠牌 MRI 數據達成 0.93 AUROC 的阿茲海默症精準預測。

Bilkent 大學研究團隊提出 SAT-CTS 演算法，捨棄傳統通道狀態估測，僅靠二元回饋即可讓毫米波網路快速達到 2.5 Gbps 的平均吞吐量門檻。

6小時提取18萬CAD模型，STEP-Parts標籤推升3D網路表現

多面體網格的相變模擬能徹底消除傳統結構化網格中高達四重的各向異性誤差。

西班牙喀斯特溶洞收集了 335GB 多模態數據與 120Hz 動作捕捉真值，彌補了天然惡劣地下環境的 SLAM 測試資料空白。

ASU 團隊提出無須重新訓練的 MSDDA 擴散模型對齊框架，透過步驟層級最佳化徹底消除多目標融合時的近似誤差。

FoodSense 數據集釋出，讓視覺大模型首度學會看圖預測食物味道與聲音。

2025年曼尼托巴省野火數據證實，隨著火災輻射功率上升，災區網路延遲一度飆升至超越國際通訊標準極限的1500毫秒。

新 RAG 架構將脈絡縮至 1/10，零額外儲存空間即可維持傳統生成效能。

研究提出分層傾向分數加權指南，界定 3 種必須採用分層策略的臨床情境，提升醫療數據因果推論準確度。

BIEVR-LIO 透過 0.05 公尺解析度的凹凸影像體素地圖，在 700 公尺極端無特徵隧道中達成穩定定位，並使運算點數減少四倍。

透過視覺特徵階層化與動態問答引導，新標註框架成功將資料集一致性提升至0.974，並讓電腦視覺模型準確率大幅躍升。

非同步機率集成將通訊成本壓縮破千倍，並維持高達 0.9822 準確率。

搭載32通道生物阻抗感測的戒指，成功結合神經網絡實現連續無袖帶血壓估測。

僅用4張正常樣本，H2VLR 透過異構超圖推論在 MVTec 創下 97.96% 準確率，打破視覺語言模型局部比對限制。

南加州大學團隊證實，僅憑傷後 7 天內的常規病歷文本，大型語言模型就能以 0.892 的準確率預測創傷後癲癇。

上海科技大學提出全新影片物件插入技術，結合多視角先驗與幾何一致性模組，成功達到 23.22 PSNR。