🤖 AI中文導讀

已導讀 313 篇 待處理 12207 篇

醫療 AI 與通用 AI(arXiv 預印本 + OpenAI / Anthropic / DeepMind / Karpathy Curated 等部落格)

📡 訂閱本分類 RSS

arXiv 全文 ★4 AI 2026-04-17

僅 25.3M 參數,SSMamba 於病理影像分類徹底擊敗 11 款主流大模型。

病理影像基礎模型雖具備強大表徵能力,但其龐大參數往往伴隨鉅額運算成本。西北大學與諾丁漢大學聯合提出的 **SSMamba** 框架,僅使用 **25.3M** 的輕量化參數,即在 10 個公開感興趣區域(ROI)資料集上擊敗了包含 **Virchow2** 與 **Prov-GigaPath** 在內的 11 款主流…

原文:SSMamba: A Self-Supervised Hybrid State Space Model for Pathological Image Classification

arXiv 全文 ★4 AI 2026-04-17

P3T 僅以 2M 參數在 3D 分類達 94% 準確率,成功突破大模型的跨域泛化瓶頸。

傳統 3D 視覺語言模型的全微調極易破壞預訓練累積的泛化能力。最新提出的 P3T 架構將可學習參數全數移至輸入端,僅需更新 2M 個參數,較基準模型銳減 91%,即在 ModelNet40 達到 94.0% 準確率,並於跨領域測試中維持卓越的辨識度。 3D 視覺語言模型微調破壞嵌入空間的泛化難題 引進大型預訓練模型…

原文:P3T: Prototypical Point-level Prompt Tuning with Enhanced Generalization for 3D Vision-Language Models

arXiv 全文 ★4 AI 2026-04-17

HQRN 結合 10 層量子殘差塊,不僅可繼承經典權重,更成功突破對抗性量子糾纏分類。

一項結合 **10** 層量子殘差塊的新型混合量子殘差網路 (HQRN),在抽樣達到 **1,000,000** 次時,能將量子與經典網路的分類分歧率降至 **3%**。該架構不僅可直接繼承經典模型的優化權重以避開訓練瓶頸,更成功辨識出模仿糾纏特徵的對抗性狀態,展現了超越經典演算法的量子特徵提取能力。 橋接經典與量…

原文:Bridge the Gap between Classical and Quantum Neural Networks with Residual Connections

arXiv 全文 ★4 AI 2026-04-16

ExoNet 模型透過融合光變曲線與恆星參數,在兩小時內完成訓練,成功從 TESS 數據揪出高達 99.64% 信心度的類地行星目標。

NASA 的 TESS(凌日系外行星巡天衛星)至今已標記超過 **7,800 個**候選系外行星,卻僅有不到 **720 個**獲得正式確認。面對龐大的數據驗證瓶頸,全新開源的多模態深度學習框架 **ExoNet**,透過融合光變曲線與恆星參數,在兩小時內即可完成模型訓練,成功從未確認清單中揪出 **35 個**高信…

原文:ExoNet: Multimodal Deep Learning for TESS Exoplanet Candidate Identification via Phase-Folded Light Curves, Stellar Para…

arXiv 全文 ★4 AI 2026-04-16

墨爾本大學最新研究揭示,量子模型的數學對稱性並不能保證防禦力,抑制特定的脆弱傅立葉模態才是確保系統強健性的關鍵。

墨爾本大學針對量子機器學習模型進行 5 種資料集測試,發現單純的數學對稱性無法保證防禦力。當模型依賴「環狀平均強度」特徵時極易遭古典攻擊擊潰,但只要抑制特定的 m=0 傅立葉模態,就能大幅提升強健性。 測試5大資料集:幾何量子模型的對稱性盲區 量子機器學習(QML)在處理具有幾何結構的任務時,經常採用「群等變架構」…

原文:Feature-level analysis and adversarial transfer in rotationally equivariant quantum machine learning

arXiv 全文 ★4 AI 2026-04-16

最新研究透過分層摘要過濾雜訊,使大型語言模型的預測一致性提升達 30%。

大型語言模型在企業資料分析常因隨機性,導致產出的情感分數劇烈浮動。最新研究針對三大平台逾 **43 萬** 筆評論進行測試,證實透過分層摘要框架能有效引導模型注意力,並過濾雜訊使預測一致性提升最高達 **30%**。 企業級情感預測面臨的語言模型隨機性難題 在現代商業環境中,基於資料驅動的決策是企業維持競爭優勢的關…

原文:Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

arXiv 全文 ★3 infrastructure 2026-04-16

德國研究團隊推出 q2-classo 與 q2-gglasso 兩款 QIIME 2 插件,專門解決微生體定序成分資料的稀疏迴歸與網路估計難題。

微生物相定序資料常伴隨極端稀疏與高維度特性,特徵數量往往遠大於樣本數。來自德國亥姆霍茲慕尼黑研究中心的團隊正式發表 **q2-classo** 與 **q2-gglasso** 兩款全新 **QIIME 2** 擴充套件,直接將對數對比迴歸與圖形套索(graphical lasso)模型導入生態系,解決成分數據在統計…

原文:Sparse regression, classification, and microbial network estimation in QIIME2 with q2-classo and q2-gglasso

arXiv 全文 ★4 general 2026-04-16

萊斯大學團隊利用 VLT 觀測 M17 恆星形成區,發現強烈紫外線環境使低質量恆星的原行星盤留存率降至 28%,證實大質量恆星會大幅壓縮行星的形成時限。

天文學家利用歐洲南方天文台(ESO)甚大望遠鏡上的 HAWK-I 儀器,針對距離地球約 1.7 千秒差距的大質量恆星形成區 M17 進行深度紅外線觀測,精準鎖定了高達 10339 個紅外線輻射源。這項研究首度將該區域的低質量恆星納入高解析度分析,發現其原行星盤留存率僅約 28%。龐大的觀測數據證實,大質量恆星釋放的強…

原文:The Effect of External Photoevaporation on the Disk Fraction in M17

arXiv 全文 ★4 AI 2026-04-16

研究團隊提出結合信賴域與直接搜尋的動態切換演算法,突破傳統模型停滯瓶頸,大幅提升多目標機器學習最佳化效率。

無導數最佳化專攻目標函數導數未知或運算成本高昂的難題。傳統信賴域方法易在代理模型擬合不良時陷入停滯,而直接搜尋法雖然強健但收斂遲緩。研究團隊提出全新的 TR-DS 動態切換演算法,融合兩者優勢,在多目標機器學習任務中展現出色的收斂效率。 無導數最佳化在模擬驅動與機器學習的挑戰 當代許多工程應用高度依賴運算密集的模擬…

原文:Enhancing Model Based Derivative Free Optimization using Direct Search

arXiv 全文 ★4 general 2026-04-16

W1 最優傳輸選擇器被證實不穩定,微觀震盪使極限二次成本卡在 1/2 而非 1/3。

在 Wasserstein-1 最優傳輸問題中,學界慣用二次能量來選出唯一映射。最新研究證實此機制具備根本的不穩定性:當目標分佈發生微觀震盪,極限收斂成本將卡在 **1/2**,而非預期的 **1/3**,推翻了過去的數學假設。 Wasserstein-1 最優傳輸與二次能量選擇器 在探討機率分佈匹配的最優傳輸(O…

原文:Instability of the ray-monotone selector for $W_1$-optimal transport

arXiv 全文 ★3 general 2026-04-16

最新數學研究證明 $k$-平面變換能將緊支撐函數的規律性精準提升 $k/2$ 階,並確立了不受維度限制的 Sobolev 等距恆等式。

在維度為 $d$ 的歐幾里得空間中,將函數沿著 $k$ 維仿射平面進行積分的 $k$-平面變換,是電腦斷層掃描等影像重建技術的核心數學工具。當 $k=1$ 時對應 X 光變換,而 $k=d-1$ 則是 Radon 變換。最新研究成功將變換的穩定性與等距恆等式,從特定維度推廣至 $1 \le k \le d-1$ 的所…

原文:Mapping estimates for the $k$-plane transform in Sobolev, Besov, and Triebel--Lizorkin Spaces

arXiv 全文 ★4 AI 2026-04-16

普林斯頓大學提出弱到強的知識蒸餾機制,以較弱教師引導模型早期訓練,創下 ImageNet 分類任務 4.8 倍提速。

傳統知識蒸餾多由強大教師指導小型學生模型以進行參數壓縮,普林斯頓大學團隊最新研究則打破此常規,提出「弱到強(Weak-to-Strong)」的蒸餾加速架構。透過讓較弱的教師模型僅在早期訓練階段提供引導,研究團隊在不損失最終準確率的前提下,成功讓 **ImageNet** 分類任務的訓練速度大幅提升高達 **4.8 倍…

原文:Weak-to-Strong Knowledge Distillation Accelerates Visual Learning

arXiv 全文 ★4 general 2026-04-16

距地球 8.58 百萬秒差距的 M51 觀測證實,活躍星系核觸發的噴流與 X 射線會讓 HCN 等傳統緻密氣體指標異常增亮,挑戰既有天文測量標準。

距離地球 **8.58 百萬秒差距**的 **M51** 渦狀星系中心,一個質量達太陽 **$10^{6.96}$** 倍的活躍星系核正透過噴流與輻射重塑周遭星系環境。最新天文觀測計畫 **SWAN** 結合毫米波望遠鏡與光學頻譜數據,以 **180 秒差距**的高解析度,證實核心觸發的 X 射線與震波會讓傳統緻密氣…

原文:Surveying the Whirlpool at Arcseconds with NOEMA (SWAN). IV. Extent of active galactic nucleus feedback on the interstel…

arXiv 全文 ★4 infrastructure 2026-04-16

ViT 剪枝後運算量減少 96%,延遲卻未改善,研究揭露 62 微秒的 API 調度開銷才是真正瓶頸。

視覺變換器(Vision Transformer)在剪枝掉 **80%** 的標記(Token)後,雖然注意力機制的理論運算量大幅減少 **96%**,但若使用目前最先進的 FlashAttention-2 可變長度 API,執行延遲卻僅下降不到 **1%**。這個極端反直覺的現象,源自於一個隱形的效能瓶頸:在 Vi…

原文:Dispatch-Aware Ragged Attention for Pruned Vision Transformers

arXiv 全文 ★4 general 2026-04-16

團隊成功利用覆蓋層穩定 30 K 鎳酸鹽薄膜,證實層間軌道雜化是常壓超導的關鍵。

雙層鎳酸鹽具備逼近 80 K 的超導潛力,但常壓下的微觀電子結構始終難以探測。研究團隊利用 **1 nm 的 PBCO 保護層**,成功穩定 **30 K 超導薄膜**,並證實 **$d_{z^2}-p_z-d_{z^2}$ 層間相干雜化**正是啟動常壓超導的核心關鍵。 利用 1 nm PBCO 覆蓋層穩定 30 …

原文:Interlayer hybridization enables superconductivity in bilayer nickelates

arXiv 全文 ★5 AI 2026-04-17

頂尖 AI 模型 FLUX 生成特定良性概念組合時,產生隱性違規圖像機率高達 99.52%,揭示既有安全機制的重大盲區。

圖像生成模型在理解複雜指令上取得巨大進展,但面對組合型安全測試時卻顯得不堪一擊。最新研究顯示,當輸入由單純良性詞彙組成的特定提示時,頂尖開源模型 **FLUX.1** 產生不安全圖像的機率高達 **99.52%**。這種由單一安全概念組合而成的隱性風險,正成為生成式人工智慧亟需解決的邊界問題。 拆解 TwoHams…

原文:TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models

arXiv 全文 ★4 infrastructure 2026-04-17

flowR 擴充套件以平均 640 毫秒的速度分析 R 專案,透過正向切片將程式碼縮減至 13%,解決腳本難以重現的長期挑戰。

資料分析腳本的複雜性與缺乏維護,常導致研究結果難以被第三方重現。為了解決 R 語言環境的長年挑戰,Ulm University 研究團隊推出了 **flowR** 擴充套件,能將分析特定輸入的程式碼範圍大幅縮減至原來的 **13%**。透過精確的跨程序資料流分析,**flowR** 處理真實世界專案的平均耗時僅需 *…

原文:Supporting the Comprehension of Data Analysis Scripts

arXiv 全文 ★4 AI 2026-04-17

測試250萬筆合成數據發現,參數優化讓TabDDPM效能飆升85,797%。

在評估高達 **250 萬筆**表格數據的合成品質時,直接使用模型預設參數可能導致嚴重失真。一項比較 **7 款**主流合成模型的最新研究顯示,經過系統性的超參數優化後,擴散模型 **TabDDPM** 的效能可飆升 **85,797%**。這項針對德國癌症登記等大型健康資料集的研究,為評估合成數據的保真度提供了一套…

原文:Evaluating quality in synthetic data generation for large tabular health datasets

arXiv 全文 ★4 AI 2026-04-17

引入星系豐度至 CNN 模型,星系團質量預測標準差降至 0.111 dex。

利用機器學習預測星系團質量迎來全新突破。天文學家運用 **Uchuu-UniverseMachine** 模擬星表建構帶有視線速度的二維影像,成功讓卷積神經網路(CNN)推斷出絕對中位數殘差小於 **0.01 dex** 的星系團質量。將星系豐度加入網路輸入特徵中,更能讓預測標準差從 **0.133 dex 降至 0…

原文:Inferring Halo Mass and Scale Radius of Galaxy Clusters Using Convolutional Neural Networks and Uchuu-UniverseMachine Ca…

arXiv 全文 ★4 AI 2026-04-17

南京大學與快手提出 ATR 代理框架,透過動態拆解編輯指令與空間解耦,讓 Qwen-Edit 在困難測試集中效能提升近 16%。

即使是最先進的圖像編輯模型,在面對超過 40% 的生成失敗案例時,問題往往不在於底層算力不足,而是人類下達指令的方式根本不符合機器的「胃口」。南京大學與快手科技的最新聯合研究指出,透過將單一圖像編輯任務拆解並重新構建為多步驟的操作序列,原本的 **Qwen-Image-Edit** 模型在 **ImgEdit-Har…

原文:Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions

arXiv 全文 ★4 AI 2026-04-17

純影片加速研究數量在三年內暴增近 17 倍,四大主流蒸餾框架正突破即時長時程生成的算力與記憶體極限。

在 2022 至 2026 年的擴散模型研究中,純影像加速論文佔據 **64.1%**(463 篇),而純影片加速僅佔 **20.6%**(149 篇)。然而到了 2025 年,影片加速研究數量從最初的 5 篇暴增至 84 篇,宣告生成式 AI 正式進入動態影像的算力保衛戰。與單張影像不同,影片生成必須同時處理空間解…

原文:Efficient Video Diffusion Models: Advancements and Challenges

arXiv 全文 ★4 AI 2026-04-17

AeroDeshadow 提出雙流網路架構與物理引導合成技術,以 2,260 組全新合成資料集突破航空影像去陰影的技術瓶頸。

在處理高解析度航空與衛星影像時,陰影去除始終是個棘手的挑戰。現有的深度學習模型在自然影像上表現優異,但直接套用於航空影像時,卻常導致邊緣模糊或色彩失真。為了解決這個問題,安徽大學與上海交通大學的研究團隊提出了 **AeroDeshadow** 框架,透過物理法則引導的生成模型,成功建構出包含 **2,260** 組配…

原文:AeroDeshadow: Physics-Guided Shadow Synthesis and Penumbra-Aware Deshadowing for Aerospace Imagery

arXiv 全文 ★4 AI 2026-04-17

PolarMAE 結合極坐標聲學特性,將 43 萬幀超音波影像預訓練加速 2.41 倍,三大分類檢測任務超越主流基準。

最新的 PolarMAE 框架透過聲學物理特徵引導,成功將超音波影像的預訓練時間從 **246.5 GPU 小時**削減至 **102.3 小時**,實現 **2.41 倍**加速。該技術不僅解決連續掃描帶來的龐大資料冗餘,更在圖像分類、目標檢測與語義分割三大超音波分析任務中,全面超越現有的視覺模型基準。 通用 M…

原文:PolarMAE: Efficient Fetal Ultrasound Pre-training via Semantic Screening and Polar-Guided Masking

arXiv 全文 ★4 infrastructure 2026-04-17

QGas 整合 GIS 編輯與圖論拓樸技術,解決 3 大散落能源數據的整合難題,大幅降低多載體管網規劃門檻。

能源系統的低碳轉型正推動天然氣管網向多載體系統演進,但全球基礎設施資訊目前散落於 **3** 大異質資料源中:圖論數據、無顯式圖論的地理資訊,以及影像化基礎設施計畫圖。為解決整合與重建複雜網路拓樸時耗時且易出錯的問題,奧地利格拉茲科技大學推出了 **QGas** 工具包。這套結合 Python 與 JavaScrip…

原文:QGas: Interactive Gas Infrastructure Toolkit

arXiv 全文 ★4 general 2026-04-17

8000萬網格大渦模擬解析95%動能,成功破解FDA血泵亂流預測難題。

在流體動力學領域,準確預測心室輔助裝置內的血液流動是一大挑戰。最新研究透過高達 8000 萬網格的大渦模擬結合瞬態技術,成功破解美國 FDA 離心式血泵基準模型的亂流預測難題。數據證實,唯有當解析的湍流動能比例超過 95% 時,計算流體力學才能真正捕捉高度非穩態的血泵流場特徵。 離心式血泵與 FDA 基準模型的亂流…

原文:Large-eddy simulation of the FDA benchmark blood pump: validation against experiments and implications for turbulent flo…

arXiv 全文 ★4 AI 2026-04-17

KAIST 團隊提出 AHS 技術,透過 70% 的生成式合成數據增強,突破零樣本頭部替換的姿態與髮型幾何限制。

傳統「換臉」技術長期受限於裁切視角,難以處理長髮、誇張表情或複雜的頭部轉動。為了解決這項真實場景的編輯挑戰,KAIST 研究團隊提出適應性頭部合成技術(Adaptive Head Synthesis, AHS),不僅能在單一模型內完成零樣本(Zero-shot,指模型在未見過特定個體數據的情況下直接進行推論)頭部替換…

原文:AHS: Adaptive Head Synthesis via Synthetic Data Augmentations

arXiv 全文 ★4 AI 2026-04-17

突破單一語義限制,AestheticNet 僅用 109 張眼動追蹤圖預訓練,將美感評估準確率提升至 0.747,超越人類基準。

機器要學會欣賞美,必須先學會「看」。當前的 **AQA(自動美感品質評估)** 模型多半僅依賴一次性的靜態語義捕捉,但最新研究提出 **AestheticNet** 架構,僅需 **109** 張眼動追蹤圖片進行預訓練,就能將視覺動態認知融入語義分析中,在測試中達到 **0.747** 的預測相關性,大幅超越純語義模…

原文:Learning to Look before Learning to Like: Incorporating Human Visual Cognition into Aesthetic Quality Assessment

arXiv 全文 ★4 AI 2026-04-17

TICoE 框架透過連續凸概念流形與多尺度視覺特徵,在 Stable Diffusion 模型中精準擦除特定概念,同時完美保留形狀相似的安全物件。

在清除 AI 繪圖模型中的敏感內容時,現有技術面臨一個兩難:僅用文字指令進行擦除,常常會被換句話說的對抗性提示詞輕易破解;而加入圖片輔助擦除,卻往往會產生視覺糾纏,將長得像的無辜物件一併刪除。為了解決這個漏洞,研究團隊提出了 TICoE(文字與影像協同擦除)框架,藉由連續凸概念流形與多尺度特徵融合,在阻擋惡意攻擊的同…

原文:Beyond Text Prompts: Precise Concept Erasure through Text-Image Collaboration

arXiv 全文 ★3 general 2026-04-17

研究團隊透過掃描電子顯微鏡,精準量化 3 微米厚 GaP/GaAs 樣本的電子束參數,成功實現非破壞性的反相疇直接取向對比成像。

法國研究團隊透過掃描電子顯微鏡(SEM)技術,針對 **3 微米**厚的定向圖案化磷化鎵(GaP)與砷化鎵(GaAs)樣本,成功實現了反相疇(Anti-Phase Domains)的直接取向對比成像。這項發表於 arXiv 的材料科學研究,展示了如何精準控制電子束能量與傾斜角度來量化晶體結構對比,為整合 III-V …

原文:Direct Orientation Contrast Imaging of Anti-Phase Domains on III-V Materials Using Scanning Electron Microscopy

arXiv 全文 ★4 AI 2026-04-17

KAIST 團隊證實遮蔽 VLM 高達 90% 的無關視覺雜訊能提升感知能力,並提出免訓練的推論期遮罩技術。

視覺語言模型(VLM)雖然能精準「看到」圖片中的關鍵區域,卻不一定能給出正確答案。近期來自 KAIST 與 POSTECH 的研究指出,當模型遮蔽高達 **90%** 的無關視覺 token 時,效能不僅沒有下降,反而因為排除了雜訊干擾,在多項視覺問答與光學字元辨識任務中表現更好。團隊提出無須重新訓練的「適應性資訊流…

原文:Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow