FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images

Sabab Ishraq, Aarushi Aarushi, Juncai Jiang, Chen Chen

View Original ↗
AI 導讀 technology AI 重要性 4/5

FoodSense 數據集釋出,讓視覺大模型首度學會看圖預測食物味道與聲音。

  • 首創涵蓋 66,842 筆跨感官標註的 FoodSense 數據集,填補 AI 在味覺與聲音預測的空白。
  • 獨創兩階段 QLoRA 訓練策略,成功克服模型同時處理數值回歸與文本生成的目標衝突。
  • 揭露絕對誤差評測的保守陷阱,證實 Lin's CCC 指標更能反映模型真實的跨感官分辨力。

人類能從一張酥脆炸雞的照片,瞬間腦補出香氣與咬下的喀滋聲,但這對當前 AI 卻是難以觸及的盲區。為解決跨感官預測難題,研究團隊推出涵蓋 66,842 筆人類標註的 FoodSense 數據集,首度賦予模型看圖推論食物味覺與聲音的能力。

建構六萬筆標註的 FoodSense 數據集

在傳統的視覺語言模型(VLM,能同時處理圖像與文字的 AI)測試基準中,食物領域的任務多半侷限於餐點辨識或卡路里估算等客觀屬性。然而在現實場景裡,影像往往是引發消費者食慾的第一接觸點。神經影像學的研究早已證實,僅憑視覺線索就能激發大腦味覺皮質的活動,進而建立對食物質地與氣味的心理模擬。

為了將這種跨模態預期轉化為機器可學習的數據,研究團隊從 Yelp 開放數據庫中篩選出 2,987 張結構多樣的食物影像。這些照片涵蓋了多元文化飲食,並經過人工審核,確保畫面只呈現單一主體。整個標註工程動員了 8,382 名參與者,針對每一張影像的味覺、嗅覺、質地與聲音進行雙軌制評分。

受試者必須在 1 到 5 分的量表上給出預期強度的數值,同時寫下簡短的自然語言描述詞(如「邊緣微焦」或「寂靜無聲」)。這項計畫最終匯集的 66,842 筆標註,不僅捕捉了人類預期心理的量化強度,也保留了支撐這些判斷的視覺語彙。數據顯示,在四大感官維度中,高達 92.7% 至 97.2% 的人認為單憑靜態影像就能推斷出食物特性,為後續的模型訓練提供了穩固的真實基礎。

克服回歸與生成衝突的兩階段微調架構

即便擁有了高品質的人類標註,要讓模型學會這項技能仍面臨結構性障礙。最棘手的問題是「目標衝突」,當系統被要求同時輸出精準的連續數值(回歸任務)與非結構化的解釋文本(生成任務)時,會引發嚴重的梯度干擾。在這種壓力下,模型往往會陷入表徵崩潰,選擇對所有輸入都給出平庸的平均分數。

為破解這個難題,團隊設計了 FoodSense-VL 兩階段 QLoRA(一種低記憶體消耗的模型微調技術)訓練策略。第一階段是「純量與描述詞定錨」,模型不接觸任何長篇推理文本,僅利用人類原始評分與簡短詞彙進行訓練。這個過程強迫系統將其視覺特徵與人類的感官基準線對齊,建立出準確的數值刻度感知。

進入第二階段後,訓練管線引入了透過 Gemma 3 27B IT 自動擴寫的視覺推理軌跡。這些軌跡將原本單薄的描述詞,展開成兩到三句具體的影像特徵分析。在這階段中,模型被要求在維持數值預測準確度的前提下,同步生成富有邏輯的解釋文本。透過這種解耦的訓練路徑,系統不僅守住對極端數值的辨識力,也長出了將感官預測訴諸文字的能力。

導入 AdaptLLM 裁判模型的幻覺過濾機制

在合成視覺推理軌跡的擴建過程中,大型語言模型無可避免地會產生幻覺,捏造出影像中根本不存在的細節。若將這些有瑕疵的推理直接餵入訓練階段,將會嚴重破壞系統對真實視覺證據的依賴性,導致預測結果失去公信力。

團隊在數據擴增流程中導入了嚴格的把關機制,部署專精於食物領域的 AdaptLLM food-Llama 11B 作為獨立裁判模型。這名數位裁判的唯一任務,就是檢驗生成的感官推理區塊是否完全符合影像呈現的客觀現實,確保所有詞彙都能在畫面上找到對應的像素。

任何缺乏明確視覺證據支撐、或是出現過度腦補的文本,都會被裁判模型無情剔除。在被判定退件的案例中,訓練管線會自動退回使用人類參與者留下的原始簡短描述。這種近乎苛求的過濾機制,確保了第二階段微調所使用的文本,全都是扎扎實實奠基於真實特徵的可靠依據。

突破誤差陷阱與 CCC 指標的真實效力

實驗評估環節針對 InternVL2.5-26BQwen2.5-VL-32B 等頂尖開源模型進行了全面實測,揭露了當前 AI 評測中的危險陷阱。數據顯示,部分通用型模型在平均絕對誤差(MAE)上取得了極佳的帳面成績,但這其實是因為它們採取了投機取巧的策略。

面對不確定的主觀預測,這些模型選擇將答案全部押注在 3.5 到 4.0 的安全地帶。這種往平均值靠攏的保守作法雖然能有效壓低整體誤差,卻完全失去了分辨事物差異的能力。為解破這種假象,研究改採 Lin's CCC(協和相關係數,同時懲罰相關性低落與尺度偏移)作為核心衡量基準。

在嚴苛的標準下,FoodSense-VL 展現了壓倒性優勢。該模型在整體表現上達到了 0.372 的 Pearson r 與 0.343 的 Lin's CCC,其 CCC 指標相較於未微調的基礎模型躍升超過 150%。相較於單階段訓練會讓預測標準差萎縮至 0.367,兩階段架構成功將其拉升至 0.591,證明系統敢於為吵雜的食物打出 4.5 分,忠實還原真實世界的分佈變異。

聲音推論挑戰與專屬詞彙的視覺溯源

在跨感官推論的四大維度中,「聲音」毫無懸念地成為所有模型共同的軟肋。要求系統從一張靜態的 2D 圖片中,推測出咬下的聽覺回饋,即便是對人類來說也充滿不確定性。在人類評估數據中,聲音維度的可靠度顯著低於味覺與嗅覺,這也成為區分模型優劣的最關鍵分水嶺。

質性分析表明,當前架構在處理這類隱性特徵時經常發生誤判。表現較優異的預測結果,往往建立在系統能否捕捉並轉譯特定的視覺結構線索。例如當模型能將視角聚焦在「易碎塗層」或「乾燥分層的酥皮」時,它對聲音強度的預測就會大幅提升。

這正是 FoodSense-VL 透過專屬數據集訓練後展現的最大價值。它建立了一套專屬的感官詞彙庫,在面對一份牛排米飯時,不僅能給出精準評分,更能明確指出是「表面的光澤」暗示了多汁口感,或是「微焦的邊角」預示了咀嚼時的聲響。這種具備高度解釋力的視覺溯源,讓機器的預測不再盲目,而是轉化為有理有據的感官報告。

視覺大模型正從單純的物體辨識,進化到模擬人類的跨感官心理預期;掌握影像特徵與隱性體驗的精準對齊,將是下一代數位互動的核心挑戰。

Abstract

Humans routinely infer taste, smell, texture, and even sound from food images a phenomenon well studied in cognitive science. However, prior vision language research on food has focused primarily on recognition tasks such as meal identification, ingredient detection, and nutrition estimation. Image-based prediction of multisensory experience remains largely unexplored. We introduce FoodSense, a human-annotated dataset for cross-sensory inference containing 66,842 participant-image pairs across 2,987 unique food images. Each pair includes numeric ratings (1-5) and free-text descriptors for four sensory dimensions: taste, smell, texture, and sound. To enable models to both predict and explain sensory expectations, we expand short human annotations into image-grounded reasoning traces. A large language model generates visual justifications conditioned on the image, ratings, and descriptors. Using these annotations, we train FoodSense-VL, a vision language benchmark model to produce both multisensory ratings and grounded explanations directly from food images. This work connects cognitive science findings on cross-sensory perception with modern instruction tuning for multimodal models and shows that many popular evaluation metrics are insufficient for visually sensory inference.