arXiv
全文
★4
AI
2026-04-16
NTIRE 2026 影像超解析度(x4)挑戰賽共吸引 **194 名**註冊參賽者,最終由 **SamsungAICamera** 團隊以破紀錄的 **33.73 dB** 峰值信噪比(PSNR)奪下雙軌賽道冠軍。本屆賽事標誌著技術典範的轉移,兩階段架構與擴散模型已正式取代傳統單一網路,成為突破視覺感知與像素保真度…
原文:The Fourth Challenge on Image Super-Resolution ($\times$4) at NTIRE 2026: Benchmark Results and Method Overview
arXiv
全文
★4
AI
2026-04-16
傳統的 2D 深度偽造(Deepfake)檢測技術在面對高畫質或極度模糊的造假影像時經常失效。為了解決這項痛點,華南農業大學研究團隊提出 **M3D-Net** 雙流網路架構,透過單一視角 RGB 影像重建臉部的反照率與深度特徵。這項結合 3D 空間特徵與 RGB 影像的多模態融合技術,在主流的 FF++(c23) …
原文:M3D-Net: Multi-Modal 3D Facial Feature Reconstruction Network for Deepfake Detection
arXiv
全文
★4
AI
2026-04-16
傳統擴散模型在編輯 1024px 高解析度圖像時,往往需要等待數十秒並受困於反演誤差。最新發表於 arXiv 的研究提出 Masked Logit Nudging (MLN) 方法,能在不依賴反演的視覺自迴歸 (VAR) 模型架構下,將 1024px 圖像編輯時間大幅壓縮至 **1.6 秒**,同時在多項標準測試中達…
原文:Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models
arXiv
全文
★4
AI
2026-04-16
傳統壓縮演算法在低位元率常面臨信號模糊問題,促成了率-失真-感知(RDP)框架的廣泛應用。北京郵電大學團隊證明,若將壓縮目標從「還原信號本身」轉為「落入特定同義集」,感知品質必備的分佈散度即可純數學推導自然浮現,無須仰賴外部假設。 解析 RDP 理論缺口:將分佈散度轉為數學推導 在自然信號壓縮領域,傳統上由夏農(S…
原文:A Synonymous Variational Perspective on the Rate-Distortion-Perception Tradeoff
arXiv
全文
★4
AI
2026-04-16
在通用語音增強(USE)領域,純生成式模型雖然能提供極高的聽覺品質,卻常伴隨嚴重的「幻覺」問題——產生錯誤字詞或改變說話者特徵。南京大學與地平線機器人團隊提出的 **UniPASE** 是一個具備 **545.7M** 參數的生成式架構,成功解決了這個難題。該模型在 URGENT 2025 挑戰賽的客觀評測中奪得第 …
原文:UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations
arXiv
全文
★4
infrastructure
2026-04-16
傳統高速脈衝相機(Spike Camera)為捕捉極限動態範圍,往往需要高達 **20 Gbps** 的驚人傳輸頻寬,這使得高解析度連續拍攝在硬體上難以規模化。來自北京大學與日本國立情報學研究所的研究團隊,近期提出一套全新的模數編碼(Modulo-Encoded)HDR 系統,在維持 **1000 FPS** 全彩捕…
原文:High-Speed Full-Color HDR Imaging via Unwrapping Modulo-Encoded Spike Streams
arXiv
全文
★4
general
2026-04-16
全像對偶理論(Holographic duality)將深不可測的黑洞內部幾何,巧妙映射為邊界上的量子數據。來自上海大學等機構的物理團隊最新證實,透過解析邊界上出現「0/0」未定義形式的極點跳躍現象,能夠反向推導出 3維與 4維旋轉黑洞的完整時空度規,甚至將複雜的愛因斯坦真空方程式轉化為純代數問題。 靜態拓樸黑洞與…
原文:Probing bulk geometry via pole skipping: from static to rotating spacetimes
arXiv
全文
★4
AI
2026-04-16
在短影音盛行的時代,將 16:9 影片無縫擴展為 9:16 等多樣比例,一直是內容創作的挑戰。來自延世大學與 GenGenAI 的研究團隊提出 Seen-to-Scene 框架,首度將光流傳播與擴散模型統一,在 YouTube-VOS 數據集的測試中,該方法在無需微調的 Zero-shot 條件下,將評估影片品質的 …
原文:Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting
arXiv
全文
★4
AI
2026-04-16
在衛星通訊與水下探測等極端環境中,傳輸語音的資料額度往往被壓縮至每秒僅 **200 bps**。清華大學與華為聯合提出的 **ClariCodec** 神經語音編碼器,透過導入強化學習(RL)技術將語音壓縮至此極限,並在 LibriSpeech 測試集中達成 **3.20%** 的字錯率(WER)。該系統成功在耗用頻…
原文:ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning
arXiv
全文
★4
infrastructure
2026-04-16
大氣湍流等動態環境常導致光學數據傳輸崩潰,但一項基於相關不變性的新技術成功在時變干擾中實現 **98.97%** 的高還原準確率。該研究完全免除機器學習與預先校準,透過單次拍攝即可重建軌道角動量多工光束,解決了高頻寬光通訊面對環境干擾的長期障礙。 軌道角動量多工技術與動態散射介質的衝突 現代通訊網路對頻寬的需求呈現…
原文:Correlation invariance unlocks robust calibration-free orbital-angular-momentum multiplexing transmission under dynamic …
arXiv
全文
★4
AI
2026-04-16
測量地表下深處的溫度與地質結構,過去往往仰賴耗資龐大且分布不均的地質鑽孔與地球物理探勘。然而,勞倫斯柏克萊國家實驗室(LBNL)的最新研究證實,透過分析地表的地理特徵,我們能精準推算難以觀測的地底狀況。研究團隊利用 **Google AlphaEarth Foundations** 產生的 64 維度地理空間嵌入向量…
原文:Subsurface Property Mapping using Google AlphaEarth Foundations
arXiv
全文
★4
AI
2026-04-16
視覺幾何基礎模型(VGFMs)在短影格的 3D 重建任務中展現了驚人的零樣本能力,但當系統軌跡拉長至公里級距時,直接套用現有框架卻經常遭遇災難性的地圖發散。為了跨越這道鴻溝,研究團隊提出 **CAL²M** 框架,透過引入一顆無須事前校正的「輔助鏡頭」,僅憑藉保持恆定物理間距的假設,便能從根本上消除單鏡頭難解的尺度模…
原文:Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye
arXiv
全文
★4
AI
2026-04-16
傳統磁振造影常丟棄相位,導致腦腫瘤初診與病理結果產生 30% 分歧。一項基於 6,970 筆掃描的新研究,打造首個能同時生成振幅與相位的流匹配模型。完全以合成數據訓練的分類器,準確率竟超越真實資料基準。 突破常規 MRI 侷限:找回被丟棄的腫瘤相位資訊 2022 年全球通報超過 **320,000** 起大腦與中樞…
原文:Generative Modeling of Complex-Valued Brain MRI Data
arXiv
全文
★4
AI
2026-04-16
目前阿茲海默症(AD)的確診高度仰賴昂貴且具侵入性的正子造影(PET)或腦脊髓液(CSF)分析。為了尋找更親民的非侵入性篩檢方案,最新研究透過分析 1,988 筆跨廠牌的 T1 加權磁振造影(MRI)影像,提出結合超級頂點視覺變壓器(SV-ViT)的升級版多尺度結構映射(MSSM+)技術。這項開源模型在區分 AD 與…
原文:Improved Multiscale Structural Mapping with Supervertex Vision Transformer for the Detection of Alzheimer's Disease Neur…
arXiv
全文
★4
AI
2026-04-16
毫米波(mmWave)通訊雖然能提供超高頻寬,但其高度定向的波束極易受到實體阻擋,傳統依賴精確通道狀態資訊(CSI)的波束對齊方式成本過高且容易失效。Bilkent 大學研究團隊提出了一種名為 SAT-CTS 的機器學習演算法,直接跳過 CSI 估測,僅透過終端設備回傳的二元 ACK/NACK 訊號,就能確保每個用戶…
原文:Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits
arXiv
全文
★4
AI
2026-04-16
傳統3D深度學習常將精確的CAD模型轉換為由大量三角形組成的網格,這種降維直接抹除了模型原有的幾何曲面與拓撲關係。為了在不犧牲精度下建立機器學習所需的標註,最新研究提出自動化標記工具STEP-Parts,能在消費級CPU上以不到6小時的時間,完成超過18萬個CAD模型的實例分割。這套直接從底層格式抽取特徵的系統,填補…
原文:STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing
arXiv
全文
★4
infrastructure
2026-04-16
傳統 CFD 沸騰模擬多受限於結構化網格。瑞士保羅謝爾研究所近期發表新框架,首度將代數 VOF 與幾何重建應用於任意多面體網格。研究更揭示驚人結論:標準笛卡爾網格會引發高達四重的各向異性誤差使氣泡變形,反而不規則多面體網格能完美抵消偏差,實現各向同性生長。 突破複雜幾何限制的非結構化 VOF 相變模擬 沸騰是工業界…
原文:Sharp-interface VOF method for phase-change simulations on unstructured meshes
arXiv
全文
★4
AI
2026-04-16
西班牙 Cueva de la Victoria 溶洞內記錄了 **335 GB**、共計 **24 個序列**的多模態環境數據,並具備 **120 Hz** 毫米級動作捕捉系統真值,這構成了最新的 CAVERS 資料集。相較於結構規則的人工地下環境,天然喀斯特(karstic)溶洞的極端不規則幾何與完全無光特徵,為…
原文:CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture
arXiv
全文
★4
AI
2026-04-15
亞利桑那州立大學(ASU)研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA,透過將強化學習拆解至去噪步驟層級(Step-level),在不引入額外數學近似誤差的情況下,直接融合多個單一目標的預訓練模型。實驗數據顯示,當同時要求圖像符合文本對齊與視覺美感雙重指標時,該方法不僅生成分數勝過傳統 Reward S…
原文:Step-level Denoising-time Diffusion Alignment with Multiple Objectives
arXiv
全文
★4
AI
2026-04-15
人類能從一張酥脆炸雞的照片,瞬間腦補出香氣與咬下的喀滋聲,但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題,研究團隊推出涵蓋 **66,842** 筆人類標註的 **FoodSense** 數據集,首度賦予模型看圖推論食物味覺與聲音的能力。 建構六萬筆標註的 FoodSense 數據集 在傳統的視覺語言模…
原文:FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images
arXiv
全文
★4
infrastructure
2026-04-15
2025 年加拿大曼尼托巴省(Manitoba)遭遇了近 30 年來最嚴峻的野火季節,超過 **890 萬公頃**的土地遭到大火吞噬。當多數氣候研究仍聚焦於火勢預測與生態破壞時,一項針對該省野火期間的最新研究,將目光轉向了一個常被忽視的災情基礎設施指標:網路連線效能。真實世界的測速數據顯示,隨著野火強度攀升,災區網路…
原文:Spatiotemporal Analysis of VIIRS Satellite Observations and Network Traffic During the 2025 Manitoba Wildfires
arXiv
全文
★4
AI
2026-04-15
裝置端 AI 面臨記憶體與儲存考驗。最新 arXiv 研究提出整合檢索與壓縮的單一模型,將上下文大砍至傳統的 **1/10**。新技術在零額外儲存負擔下維持既有效能,為本地端處理敏感資料徹底擺脫對雲端的依賴。 傳統雲端 RAG 部署面臨的隱私與連線挑戰 傳統的 **RAG(檢索增強生成,一種結合外部資料庫以提升 A…
原文:A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation
arXiv
全文
★4
general
2026-04-15
在缺乏隨機對照實驗的觀察性研究中,如何從龐大且混雜的電子健康紀錄精準估算治療效果,一直是臨床統計的一大挑戰。最新發表於 arXiv 的研究提出一套分層傾向分數加權實用指南,明確定義了 **3** 種必須優先採用分層策略的臨床異質性情境,為處理複雜醫療數據的基準平衡提供系統性解法。 電子健康紀錄的異質性與傾向分數加權…
原文:Propensity Score Weighting to Ensure Balance in Key Subgroups or Strata: A Practical Guide
arXiv
全文
★4
infrastructure
2026-04-15
當移動機器人駛入筆直的地鐵隧道或廣袤的平坦草地時,缺乏幾何特徵往往導致主流的光達慣性里程計定位偏移甚至完全失效。蘇黎世聯邦理工學院(ETH Zurich)團隊提出的 **BIEVR-LIO** 系統,透過在空間體素地圖中嵌入解析度高達 **0.05** 公尺的「凹凸影像」,成功捕捉環境中肉眼難以察覺的微小表面起伏。這…
原文:BIEVR-LIO: Robust LiDAR-Inertial Odometry through Bump-Image-Enhanced Voxel Maps
arXiv
全文
★4
AI
2026-04-15
在現有的主流影像資料集中,一張標示為「棕熊」的照片可能同時包含真實的熊、泰迪熊娃娃、卡通畫,甚至是穿著熊布偶裝的人。為了解決這類由人類主觀認知造成的標註混亂,倫敦大學學院與特倫托大學的研究團隊提出基於視覺特徵的群眾外包標註框架,成功將標註一致性指標 Krippendorff’s Alpha 提升至 0.974,並使 …
原文:Crowdsourcing of Real-world Image Annotation via Visual Properties
arXiv
全文
★4
AI
2026-04-15
一套針對災難救援設計的非同步機率集成框架,成功將邊緣裝置的模型通訊成本從 **255 MB** 巨幅壓縮至 **150 KB**,降幅破千倍。透過交換輕量化類別機率向量取代龐大權重,系統在影像辨識上維持 **0.9822** 的頂尖準確率,徹底解決災區網路不穩造成的同步癱瘓問題。 傳統聯邦學習在無人機災區偵測的通訊…
原文:Asynchronous Probability Ensembling for Federated Disaster Detection
arXiv
全文
★4
general
2026-04-16
由 14 位跨機構學者共同研發的穿戴式血流動力學影像戒指,成功整合了 **8 個電極**與 **32 通道**生物阻抗感測技術。在 **96 名**健康受試者的實證測試中,這套微型裝置成功捕捉指動脈的脈動血流電導率影像,並結合神經網絡演算法實現無袖帶連續血壓波形的精準估測。 突破單一感測侷限與臨床高保真影像的空間限…
原文:A wearable electrical hemodynamic imaging ring
arXiv
全文
★4
AI
2026-04-16
僅需 4 張正常樣本,**H2VLR** 框架就能在 **MVTec** 工業數據集達到 **97.96%** 的異常檢測準確率,甚至超越使用全量數據訓練的模型。傳統視覺語言模型在少樣本異常檢測中,往往依賴單一的圖像區塊與文字特徵比對,容易漏判具備結構性關聯的微小瑕疵。中國電子科技大學團隊提出的異構超圖推論架構,打破…
原文:H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection
arXiv
全文
★4
AI
2026-04-16
南加州大學團隊證實,僅憑受傷後 7 天內的常規臨床紀錄,不依賴昂貴神經影像,大型語言模型就能以高達 **0.892** 的 AUC-ROC 準確率預測創傷後癲癇。這項涵蓋 **256** 名患者的研究,展現了純文本資料預測高風險神經疾病的潛力。 取代昂貴神經影像的 TRACK-TBI 臨床紀錄 創傷後癲癇(PTE)…
原文:Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings
arXiv
全文
★4
AI
2026-04-16
上海科技大學研究團隊近期提出全新的影片物件插入(Video Object Insertion)框架,透過結合 3D 多視角先驗技術,成功在邊界框控制條件下達到 **23.22** 的 PSNR 與 **0.9026** 的 SSIM,大幅超越現有基準模型。這項研究突破了過去單張參考圖像容易導致的物體變形與身份漂移問題…
原文:Controllable Video Object Insertion via Multiview Priors