arXiv Full Text 2026-04-15

FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images

Sabab Ishraq, Aarushi Aarushi, Juncai Jiang, Chen Chen

AI 導讀 technology AI 重要性 4/5

FoodSense 數據集釋出，讓視覺大模型首度學會看圖預測食物味道與聲音。

首創涵蓋 66,842 筆跨感官標註的 FoodSense 數據集，填補 AI 在味覺與聲音預測的空白。
獨創兩階段 QLoRA 訓練策略，成功克服模型同時處理數值回歸與文本生成的目標衝突。
揭露絕對誤差評測的保守陷阱，證實 Lin's CCC 指標更能反映模型真實的跨感官分辨力。

人類能從一張酥脆炸雞的照片，瞬間腦補出香氣與咬下的喀滋聲，但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題，研究團隊推出涵蓋 66,842 筆人類標註的 FoodSense 數據集，首度賦予模型看圖推論食物味覺與聲音的能力。

建構六萬筆標註的 FoodSense 數據集

在傳統的視覺語言模型（VLM，能同時處理圖像與文字的 AI）測試基準中，食物領域的任務多半侷限於餐點辨識或卡路里估算等客觀屬性。然而在現實場景裡，影像往往是引發消費者食慾的第一接觸點。神經影像學的研究早已證實，僅憑視覺線索就能激發大腦味覺皮質的活動，進而建立對食物質地與氣味的心理模擬。

為了將這種跨模態預期轉化為機器可學習的數據，研究團隊從 Yelp 開放數據庫中篩選出 2,987 張結構多樣的食物影像。這些照片涵蓋了多元文化飲食，並經過人工審核，確保畫面只呈現單一主體。整個標註工程動員了 8,382 名參與者，針對每一張影像的味覺、嗅覺、質地與聲音進行雙軌制評分。

受試者必須在 1 到 5 分的量表上給出預期強度的數值，同時寫下簡短的自然語言描述詞（如「邊緣微焦」或「寂靜無聲」）。這項計畫最終匯集的 66,842 筆標註，不僅捕捉了人類預期心理的量化強度，也保留了支撐這些判斷的視覺語彙。數據顯示，在四大感官維度中，高達 92.7% 至 97.2% 的人認為單憑靜態影像就能推斷出食物特性，為後續的模型訓練提供了穩固的真實基礎。

克服回歸與生成衝突的兩階段微調架構

即便擁有了高品質的人類標註，要讓模型學會這項技能仍面臨結構性障礙。最棘手的問題是「目標衝突」，當系統被要求同時輸出精準的連續數值（回歸任務）與非結構化的解釋文本（生成任務）時，會引發嚴重的梯度干擾。在這種壓力下，模型往往會陷入表徵崩潰，選擇對所有輸入都給出平庸的平均分數。

為破解這個難題，團隊設計了 FoodSense-VL 兩階段 QLoRA（一種低記憶體消耗的模型微調技術）訓練策略。第一階段是「純量與描述詞定錨」，模型不接觸任何長篇推理文本，僅利用人類原始評分與簡短詞彙進行訓練。這個過程強迫系統將其視覺特徵與人類的感官基準線對齊，建立出準確的數值刻度感知。

進入第二階段後，訓練管線引入了透過 Gemma 3 27B IT 自動擴寫的視覺推理軌跡。這些軌跡將原本單薄的描述詞，展開成兩到三句具體的影像特徵分析。在這階段中，模型被要求在維持數值預測準確度的前提下，同步生成富有邏輯的解釋文本。透過這種解耦的訓練路徑，系統不僅守住對極端數值的辨識力，也長出了將感官預測訴諸文字的能力。

導入 AdaptLLM 裁判模型的幻覺過濾機制

在合成視覺推理軌跡的擴建過程中，大型語言模型無可避免地會產生幻覺，捏造出影像中根本不存在的細節。若將這些有瑕疵的推理直接餵入訓練階段，將會嚴重破壞系統對真實視覺證據的依賴性，導致預測結果失去公信力。

團隊在數據擴增流程中導入了嚴格的把關機制，部署專精於食物領域的 AdaptLLM food-Llama 11B 作為獨立裁判模型。這名數位裁判的唯一任務，就是檢驗生成的感官推理區塊是否完全符合影像呈現的客觀現實，確保所有詞彙都能在畫面上找到對應的像素。

任何缺乏明確視覺證據支撐、或是出現過度腦補的文本，都會被裁判模型無情剔除。在被判定退件的案例中，訓練管線會自動退回使用人類參與者留下的原始簡短描述。這種近乎苛求的過濾機制，確保了第二階段微調所使用的文本，全都是扎扎實實奠基於真實特徵的可靠依據。

突破誤差陷阱與 CCC 指標的真實效力

實驗評估環節針對 InternVL2.5-26B 與 Qwen2.5-VL-32B 等頂尖開源模型進行了全面實測，揭露了當前 AI 評測中的危險陷阱。數據顯示，部分通用型模型在平均絕對誤差（MAE）上取得了極佳的帳面成績，但這其實是因為它們採取了投機取巧的策略。

面對不確定的主觀預測，這些模型選擇將答案全部押注在 3.5 到 4.0 的安全地帶。這種往平均值靠攏的保守作法雖然能有效壓低整體誤差，卻完全失去了分辨事物差異的能力。為解破這種假象，研究改採 Lin's CCC（協和相關係數，同時懲罰相關性低落與尺度偏移）作為核心衡量基準。

在嚴苛的標準下，FoodSense-VL 展現了壓倒性優勢。該模型在整體表現上達到了 0.372 的 Pearson r 與 0.343 的 Lin's CCC，其 CCC 指標相較於未微調的基礎模型躍升超過 150%。相較於單階段訓練會讓預測標準差萎縮至 0.367，兩階段架構成功將其拉升至 0.591，證明系統敢於為吵雜的食物打出 4.5 分，忠實還原真實世界的分佈變異。

聲音推論挑戰與專屬詞彙的視覺溯源

在跨感官推論的四大維度中，「聲音」毫無懸念地成為所有模型共同的軟肋。要求系統從一張靜態的 2D 圖片中，推測出咬下的聽覺回饋，即便是對人類來說也充滿不確定性。在人類評估數據中，聲音維度的可靠度顯著低於味覺與嗅覺，這也成為區分模型優劣的最關鍵分水嶺。

質性分析表明，當前架構在處理這類隱性特徵時經常發生誤判。表現較優異的預測結果，往往建立在系統能否捕捉並轉譯特定的視覺結構線索。例如當模型能將視角聚焦在「易碎塗層」或「乾燥分層的酥皮」時，它對聲音強度的預測就會大幅提升。

這正是 FoodSense-VL 透過專屬數據集訓練後展現的最大價值。它建立了一套專屬的感官詞彙庫，在面對一份牛排米飯時，不僅能給出精準評分，更能明確指出是「表面的光澤」暗示了多汁口感，或是「微焦的邊角」預示了咀嚼時的聲響。這種具備高度解釋力的視覺溯源，讓機器的預測不再盲目，而是轉化為有理有據的感官報告。

視覺大模型正從單純的物體辨識，進化到模擬人類的跨感官心理預期；掌握影像特徵與隱性體驗的精準對齊，將是下一代數位互動的核心挑戰。

Abstract

Humans routinely infer taste, smell, texture, and even sound from food images a phenomenon well studied in cognitive science. However, prior vision language research on food has focused primarily on recognition tasks such as meal identification, ingredient detection, and nutrition estimation. Image-based prediction of multisensory experience remains largely unexplored. We introduce FoodSense, a human-annotated dataset for cross-sensory inference containing 66,842 participant-image pairs across 2,987 unique food images. Each pair includes numeric ratings (1-5) and free-text descriptors for four sensory dimensions: taste, smell, texture, and sound. To enable models to both predict and explain sensory expectations, we expand short human annotations into image-grounded reasoning traces. A large language model generates visual justifications conditioned on the image, ratings, and descriptors. Using these annotations, we train FoodSense-VL, a vision language benchmark model to produce both multisensory ratings and grounded explanations directly from food images. This work connects cognitive science findings on cross-sensory perception with modern instruction tuning for multimodal models and shows that many popular evaluation metrics are insufficient for visually sensory inference.

FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images

建構六萬筆標註的 FoodSense 數據集

克服回歸與生成衝突的兩階段微調架構

導入 AdaptLLM 裁判模型的幻覺過濾機制

突破誤差陷阱與 CCC 指標的真實效力

聲音推論挑戰與專屬詞彙的視覺溯源

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。