📖 arXiv

收錄 278 篇中文導讀

期刊專區 · 依重要性與時間排序

📡 訂閱本期刊 RSS

arXiv 全文 ★4 infrastructure 2026-04-16

新技術運用相關不變性,無需校準與訓練,即能在動態散射的大氣環境中實現 98.97% 數據傳輸準確率。

大氣湍流等動態環境常導致光學數據傳輸崩潰,但一項基於相關不變性的新技術成功在時變干擾中實現 **98.97%** 的高還原準確率。該研究完全免除機器學習與預先校準,透過單次拍攝即可重建軌道角動量多工光束,解決了高頻寬光通訊面對環境干擾的長期障礙。 軌道角動量多工技術與動態散射介質的衝突 現代通訊網路對頻寬的需求呈現…

原文:Correlation invariance unlocks robust calibration-free orbital-angular-momentum multiplexing transmission under dynamic …

arXiv 全文 ★4 AI 2026-04-16

LBNL 團隊運用 Google AlphaEarth 的 64 維度地理空間向量,成功在美國本土預測深達 6000 公尺的地底溫度,誤差僅 6.0°C。

測量地表下深處的溫度與地質結構,過去往往仰賴耗資龐大且分布不均的地質鑽孔與地球物理探勘。然而,勞倫斯柏克萊國家實驗室(LBNL)的最新研究證實,透過分析地表的地理特徵,我們能精準推算難以觀測的地底狀況。研究團隊利用 **Google AlphaEarth Foundations** 產生的 64 維度地理空間嵌入向量…

原文:Subsurface Property Mapping using Google AlphaEarth Foundations

arXiv 全文 ★4 AI 2026-04-16

CAL²M 引入恆定間距的輔助鏡頭,成功讓視覺基礎模型實現無事前校正的公里級 SLAM 建圖。

視覺幾何基礎模型(VGFMs)在短影格的 3D 重建任務中展現了驚人的零樣本能力,但當系統軌跡拉長至公里級距時,直接套用現有框架卻經常遭遇災難性的地圖發散。為了跨越這道鴻溝,研究團隊提出 **CAL²M** 框架,透過引入一顆無須事前校正的「輔助鏡頭」,僅憑藉保持恆定物理間距的假設,便能從根本上消除單鏡頭難解的尺度模…

原文:Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye

arXiv 全文 ★4 AI 2026-04-16

結合相位的磁振造影生成模型,以純合成數據訓練的異常辨識率反超真實病例。

傳統磁振造影常丟棄相位,導致腦腫瘤初診與病理結果產生 30% 分歧。一項基於 6,970 筆掃描的新研究,打造首個能同時生成振幅與相位的流匹配模型。完全以合成數據訓練的分類器,準確率竟超越真實資料基準。 突破常規 MRI 侷限:找回被丟棄的腫瘤相位資訊 2022 年全球通報超過 **320,000** 起大腦與中樞…

原文:Generative Modeling of Complex-Valued Brain MRI Data

arXiv 全文 ★4 AI 2026-04-16

最新 SV-ViT 模型結合 MSSM+ 多尺度特徵,透過 1988 筆跨廠牌 MRI 數據達成 0.93 AUROC 的阿茲海默症精準預測。

目前阿茲海默症(AD)的確診高度仰賴昂貴且具侵入性的正子造影(PET)或腦脊髓液(CSF)分析。為了尋找更親民的非侵入性篩檢方案,最新研究透過分析 1,988 筆跨廠牌的 T1 加權磁振造影(MRI)影像,提出結合超級頂點視覺變壓器(SV-ViT)的升級版多尺度結構映射(MSSM+)技術。這項開源模型在區分 AD 與…

原文:Improved Multiscale Structural Mapping with Supervertex Vision Transformer for the Detection of Alzheimer's Disease Neur…

arXiv 全文 ★4 AI 2026-04-16

Bilkent 大學研究團隊提出 SAT-CTS 演算法,捨棄傳統通道狀態估測,僅靠二元回饋即可讓毫米波網路快速達到 2.5 Gbps 的平均吞吐量門檻。

毫米波(mmWave)通訊雖然能提供超高頻寬,但其高度定向的波束極易受到實體阻擋,傳統依賴精確通道狀態資訊(CSI)的波束對齊方式成本過高且容易失效。Bilkent 大學研究團隊提出了一種名為 SAT-CTS 的機器學習演算法,直接跳過 CSI 估測,僅透過終端設備回傳的二元 ACK/NACK 訊號,就能確保每個用戶…

原文:Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits

arXiv 全文 ★4 AI 2026-04-16

6小時提取18萬CAD模型,STEP-Parts標籤推升3D網路表現

傳統3D深度學習常將精確的CAD模型轉換為由大量三角形組成的網格,這種降維直接抹除了模型原有的幾何曲面與拓撲關係。為了在不犧牲精度下建立機器學習所需的標註,最新研究提出自動化標記工具STEP-Parts,能在消費級CPU上以不到6小時的時間,完成超過18萬個CAD模型的實例分割。這套直接從底層格式抽取特徵的系統,填補…

原文:STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing

arXiv 全文 ★4 infrastructure 2026-04-16

多面體網格的相變模擬能徹底消除傳統結構化網格中高達四重的各向異性誤差。

傳統 CFD 沸騰模擬多受限於結構化網格。瑞士保羅謝爾研究所近期發表新框架,首度將代數 VOF 與幾何重建應用於任意多面體網格。研究更揭示驚人結論:標準笛卡爾網格會引發高達四重的各向異性誤差使氣泡變形,反而不規則多面體網格能完美抵消偏差,實現各向同性生長。 突破複雜幾何限制的非結構化 VOF 相變模擬 沸騰是工業界…

原文:Sharp-interface VOF method for phase-change simulations on unstructured meshes

arXiv 全文 ★4 AI 2026-04-16

西班牙喀斯特溶洞收集了 335GB 多模態數據與 120Hz 動作捕捉真值,彌補了天然惡劣地下環境的 SLAM 測試資料空白。

西班牙 Cueva de la Victoria 溶洞內記錄了 **335 GB**、共計 **24 個序列**的多模態環境數據,並具備 **120 Hz** 毫米級動作捕捉系統真值,這構成了最新的 CAVERS 資料集。相較於結構規則的人工地下環境,天然喀斯特(karstic)溶洞的極端不規則幾何與完全無光特徵,為…

原文:CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture

arXiv 全文 ★4 AI 2026-04-15

ASU 團隊提出無須重新訓練的 MSDDA 擴散模型對齊框架,透過步驟層級最佳化徹底消除多目標融合時的近似誤差。

亞利桑那州立大學(ASU)研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA,透過將強化學習拆解至去噪步驟層級(Step-level),在不引入額外數學近似誤差的情況下,直接融合多個單一目標的預訓練模型。實驗數據顯示,當同時要求圖像符合文本對齊與視覺美感雙重指標時,該方法不僅生成分數勝過傳統 Reward S…

原文:Step-level Denoising-time Diffusion Alignment with Multiple Objectives

arXiv 全文 ★4 AI 2026-04-15

FoodSense 數據集釋出,讓視覺大模型首度學會看圖預測食物味道與聲音。

人類能從一張酥脆炸雞的照片,瞬間腦補出香氣與咬下的喀滋聲,但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題,研究團隊推出涵蓋 **66,842** 筆人類標註的 **FoodSense** 數據集,首度賦予模型看圖推論食物味覺與聲音的能力。 建構六萬筆標註的 FoodSense 數據集 在傳統的視覺語言模…

原文:FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images

arXiv 全文 ★4 infrastructure 2026-04-15

2025年曼尼托巴省野火數據證實,隨著火災輻射功率上升,災區網路延遲一度飆升至超越國際通訊標準極限的1500毫秒。

2025 年加拿大曼尼托巴省(Manitoba)遭遇了近 30 年來最嚴峻的野火季節,超過 **890 萬公頃**的土地遭到大火吞噬。當多數氣候研究仍聚焦於火勢預測與生態破壞時,一項針對該省野火期間的最新研究,將目光轉向了一個常被忽視的災情基礎設施指標:網路連線效能。真實世界的測速數據顯示,隨著野火強度攀升,災區網路…

原文:Spatiotemporal Analysis of VIIRS Satellite Observations and Network Traffic During the 2025 Manitoba Wildfires

arXiv 全文 ★4 AI 2026-04-15

新 RAG 架構將脈絡縮至 1/10,零額外儲存空間即可維持傳統生成效能。

裝置端 AI 面臨記憶體與儲存考驗。最新 arXiv 研究提出整合檢索與壓縮的單一模型,將上下文大砍至傳統的 **1/10**。新技術在零額外儲存負擔下維持既有效能,為本地端處理敏感資料徹底擺脫對雲端的依賴。 傳統雲端 RAG 部署面臨的隱私與連線挑戰 傳統的 **RAG(檢索增強生成,一種結合外部資料庫以提升 A…

原文:A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation

arXiv 全文 ★4 general 2026-04-15

研究提出分層傾向分數加權指南,界定 3 種必須採用分層策略的臨床情境,提升醫療數據因果推論準確度。

在缺乏隨機對照實驗的觀察性研究中,如何從龐大且混雜的電子健康紀錄精準估算治療效果,一直是臨床統計的一大挑戰。最新發表於 arXiv 的研究提出一套分層傾向分數加權實用指南,明確定義了 **3** 種必須優先採用分層策略的臨床異質性情境,為處理複雜醫療數據的基準平衡提供系統性解法。 電子健康紀錄的異質性與傾向分數加權…

原文:Propensity Score Weighting to Ensure Balance in Key Subgroups or Strata: A Practical Guide

arXiv 全文 ★4 infrastructure 2026-04-15

BIEVR-LIO 透過 0.05 公尺解析度的凹凸影像體素地圖,在 700 公尺極端無特徵隧道中達成穩定定位,並使運算點數減少四倍。

當移動機器人駛入筆直的地鐵隧道或廣袤的平坦草地時,缺乏幾何特徵往往導致主流的光達慣性里程計定位偏移甚至完全失效。蘇黎世聯邦理工學院(ETH Zurich)團隊提出的 **BIEVR-LIO** 系統,透過在空間體素地圖中嵌入解析度高達 **0.05** 公尺的「凹凸影像」,成功捕捉環境中肉眼難以察覺的微小表面起伏。這…

原文:BIEVR-LIO: Robust LiDAR-Inertial Odometry through Bump-Image-Enhanced Voxel Maps

arXiv 全文 ★4 AI 2026-04-15

透過視覺特徵階層化與動態問答引導,新標註框架成功將資料集一致性提升至0.974,並讓電腦視覺模型準確率大幅躍升。

在現有的主流影像資料集中,一張標示為「棕熊」的照片可能同時包含真實的熊、泰迪熊娃娃、卡通畫,甚至是穿著熊布偶裝的人。為了解決這類由人類主觀認知造成的標註混亂,倫敦大學學院與特倫托大學的研究團隊提出基於視覺特徵的群眾外包標註框架,成功將標註一致性指標 Krippendorff’s Alpha 提升至 0.974,並使 …

原文:Crowdsourcing of Real-world Image Annotation via Visual Properties

arXiv 全文 ★4 AI 2026-04-15

非同步機率集成將通訊成本壓縮破千倍,並維持高達 0.9822 準確率。

一套針對災難救援設計的非同步機率集成框架,成功將邊緣裝置的模型通訊成本從 **255 MB** 巨幅壓縮至 **150 KB**,降幅破千倍。透過交換輕量化類別機率向量取代龐大權重,系統在影像辨識上維持 **0.9822** 的頂尖準確率,徹底解決災區網路不穩造成的同步癱瘓問題。 傳統聯邦學習在無人機災區偵測的通訊…

原文:Asynchronous Probability Ensembling for Federated Disaster Detection

arXiv 全文 ★4 general 2026-04-16

搭載32通道生物阻抗感測的戒指,成功結合神經網絡實現連續無袖帶血壓估測。

由 14 位跨機構學者共同研發的穿戴式血流動力學影像戒指,成功整合了 **8 個電極**與 **32 通道**生物阻抗感測技術。在 **96 名**健康受試者的實證測試中,這套微型裝置成功捕捉指動脈的脈動血流電導率影像,並結合神經網絡演算法實現無袖帶連續血壓波形的精準估測。 突破單一感測侷限與臨床高保真影像的空間限…

原文:A wearable electrical hemodynamic imaging ring

arXiv 全文 ★4 AI 2026-04-16

僅用4張正常樣本,H2VLR 透過異構超圖推論在 MVTec 創下 97.96% 準確率,打破視覺語言模型局部比對限制。

僅需 4 張正常樣本,**H2VLR** 框架就能在 **MVTec** 工業數據集達到 **97.96%** 的異常檢測準確率,甚至超越使用全量數據訓練的模型。傳統視覺語言模型在少樣本異常檢測中,往往依賴單一的圖像區塊與文字特徵比對,容易漏判具備結構性關聯的微小瑕疵。中國電子科技大學團隊提出的異構超圖推論架構,打破…

原文:H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection

arXiv 全文 ★4 AI 2026-04-16

南加州大學團隊證實,僅憑傷後 7 天內的常規病歷文本,大型語言模型就能以 0.892 的準確率預測創傷後癲癇。

南加州大學團隊證實,僅憑受傷後 7 天內的常規臨床紀錄,不依賴昂貴神經影像,大型語言模型就能以高達 **0.892** 的 AUC-ROC 準確率預測創傷後癲癇。這項涵蓋 **256** 名患者的研究,展現了純文本資料預測高風險神經疾病的潛力。 取代昂貴神經影像的 TRACK-TBI 臨床紀錄 創傷後癲癇(PTE)…

原文:Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings

arXiv 全文 ★4 AI 2026-04-16

上海科技大學提出全新影片物件插入技術,結合多視角先驗與幾何一致性模組,成功達到 23.22 PSNR。

上海科技大學研究團隊近期提出全新的影片物件插入(Video Object Insertion)框架,透過結合 3D 多視角先驗技術,成功在邊界框控制條件下達到 **23.22** 的 PSNR 與 **0.9026** 的 SSIM,大幅超越現有基準模型。這項研究突破了過去單張參考圖像容易導致的物體變形與身份漂移問題…

原文:Controllable Video Object Insertion via Multiview Priors

arXiv 全文 ★4 AI 2026-04-16

浙江大學團隊利用擴散模型預測影像雜訊,開發出 ANL 檢測架構,將未參與訓練的 Deepfake 模型檢測準確率提升逾 12%。

當前主流的 Deepfake 檢測系統正面臨嚴峻挑戰,面對由 Midjourney 或 Stable Diffusion 生成的影像,傳統基於像素特徵的模型往往會失效。來自浙江大學的研究團隊提出了一種名為注意力引導雜訊學習(ANL)的新架構,透過預先訓練的擴散模型提取影像的潛在雜訊,成功將未見過生成模型的跨模型檢測準…

原文:Deepfake Detection Generalization with Diffusion Noise

arXiv 全文 ★4 general 2026-04-16

透過鑽石 NV 中心感測器,研究團隊在超過 100 分鐘的影像紀錄中,證實 1 K 的局部溫差與屏蔽電流能精確重排超導量子漩渦。

透過改變局部溫度與外加磁場,研究團隊利用鑽石量子感測器,成功在超過 **100 分鐘**的連續觀測中,即時捕捉到氮化鈮(NbN)超導薄膜內部量子漩渦的重排過程。這項精確觀測不僅揭示了僅僅 **1 K** 的局部溫差如何引發微觀結構的位移,更為提升超導量子元件的穩定性提供了全新的物理驗證途徑。 鑽石量子感測器揭示 N…

原文:Wide-field magnetic imaging of shielding-current-driven vortex rearrangement under local heating using diamond quantum s…

arXiv 全文 ★4 AI 2026-04-16

免訓練圖像合成模組 GIST 解決排版視覺衝突,在 GPT-4V 設計盲測中取得高達 71.43% 勝率。

現代平面設計往往面臨一個現實困境:當來自不同來源的圖片、商標和文字拼湊在一起時,常會因為光影和色調的差異而顯得格格不入。卡內基梅隆大學與 Adobe Research 團隊在最新的研究中發現,超過 **40.3%** 的自動化排版可以透過影像合成模組獲得顯著改善。他們開發出名為 **GIST** 的免訓練圖像合成技術…

原文:Towards Design Compositing

arXiv 全文 ★4 AI 2026-04-16

DETR-ViP 藉由全域整合與關係蒸餾重塑視覺提示空間,解決語義模糊問題,在 COCO 零樣本偵測超越前代 4.4 mAP。

視覺提示(Visual prompts)在開放詞彙物件偵測中,理應比文字提示具備更強的罕見類別泛化能力,但其表現卻長期落後。西安交大與海康機器人團隊提出的 DETR-ViP 架構,透過重塑視覺提示的語義空間,在 COCO 資料集上大幅超越現有 T-Rex2 模型達 **+4.4 mAP**,成功釋放視覺提示的物件偵測…

原文:DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts

arXiv 全文 ★4 general 2026-04-16

利用 FAST 電波望遠鏡的巡天數據,天文學家在 50 Mpc 內篩選出 70 個無可見光特徵的「暗星系」候選者。

在我們熟知的發光宇宙之外,隱藏著大量未能孕育恆星的「暗星系」。天文學家近期利用地表最大的單口徑電波望遠鏡 FAST,從高達 41,741 個中性氫(HI)輻射訊號中,在距離地球 50 Mpc(約 1.6 億光年)的範圍內,成功篩選出 70 個缺乏任何可見光特徵的暗星系候選者。這項耗時的跨星表比對與視覺審查,填補了暗物…

原文:FAST and Dark: A catalogue of Dark Galaxy Candidates within 50 Mpc

arXiv 全文 ★4 AI 2026-04-16

Geo2Sound 框架首創將衛星影像轉化為高還原度環境音景,FAD 品質指標達創紀錄 1.765。

突破傳統視覺物件轉音訊的視角限制,研究團隊提出的 Geo2Sound 框架首次實現了將靜態衛星影像轉化為高還原度的地理環境音景(Soundscape)。該研究不僅將 Fréchet Audio Distance(FAD,用於評估生成音訊品質與真實分佈差異的指標)降至創紀錄的 **1.765**,較現有最強影像轉音訊基…

原文:Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

arXiv 全文 ★4 AI 2026-04-16

G-MIXER 演算法透過測地線混疊與顯性語意重排序,在無需訓練下將 CIRR 資料集檢索準確率提升 7.83%。

現有的零樣本組合影像檢索(ZS-CIR)高度依賴文字描述,容易遺失圖片未提及的隱含細節。最新發布的 **G-MIXER** 演算法打破此限制,透過測地線混疊(Geodesic Mixup)與顯性語意重排序技術,在無需額外訓練的情況下,於 CIRR 資料集的 mAP@50 準確率大幅提升 **7.83%**。這項技術證…

原文:G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image …

arXiv 全文 ★4 AI 2026-04-16

微軟 HAMSA 捨棄空間掃描,憑頻譜運算達 85.7% 準確率,推論速度翻倍。

微軟研究團隊提出全新視覺狀態空間模型(SSM)架構 **HAMSA**,以 **85.7%** 的 ImageNet-1K 準確率創下 SSM 領域新紀錄。有別於傳統模型依賴複雜的二維影像掃描策略,HAMSA 完全捨棄空間上的掃描機制,直接轉往頻譜域(Spectral Domain)進行核心運算。這項架構變革讓硬體推…

原文:HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet

arXiv 全文 ★4 general 2026-04-16

物理學家在 Kuramoto 模型中引入 2n 頂點的凸幾何多面體,成功推導有限振盪器達成同步所需的明確數學耦合上限。

1975 年提出的 Kuramoto 模型是解釋系統同步現象的核心。近期物理學者利用凸幾何架構,在頻率空間建構具 2n 個頂點的凸多面體,成功推導出有限數量振盪器達成完全相位鎖定所需最小耦合強度的數學上限公式。 1975 年 Kuramoto 模型的有限維度挑戰 在自然科學與工程領域中,互動振盪單元的同步現象無所不…

原文:A convex-geometric framework for fully phase-locked states in the finite Kuramoto model