Learning to Look before Learning to Like: Incorporating Human Visual Cognition into Aesthetic Quality Assessment
突破單一語義限制,AestheticNet 僅用 109 張眼動追蹤圖預訓練,將美感評估準確率提升至 0.747,超越人類基準。
- 機器美感評估若僅依賴 CLIP 等靜態語義模型,會忽視人類主動探索構圖的動態眼動認知。
- GAVE 模組利用 109 張眼球軌跡圖像進行對比學習預訓練,大幅節省資源並避免像素死記。
- 視覺特徵可作為即插即用模組,讓 ResNet 到 Q-Align 等模型效能全面躍升,證實其模組獨立性。
機器要學會欣賞美,必須先學會「看」。當前的 AQA(自動美感品質評估) 模型多半僅依賴一次性的靜態語義捕捉,但最新研究提出 AestheticNet 架構,僅需 109 張眼動追蹤圖片進行預訓練,就能將視覺動態認知融入語義分析中,在測試中達到 0.747 的預測相關性,大幅超越純語義模型。
突破 CLIP 語義模型在 AQA 美感評估的限制
AI 評分機制過往多將圖像視為靜態像素向量,像是 CNN 架構的 NIMA 到近期的多模態大模型 Q-Align,皆依賴單一時間點的語義認知。這類方法偏離了人類視覺系統(HVS)真正的美學認知過程,因為人類在評斷「喜不喜歡」前,會先透過眼球掃描路徑(scanpath)主動探索畫面。這是一種由下而上的顯著性(如對比度、方向)與由上而下的語義意圖所交織的動態過程。處理流暢度理論(Processing Fluency Theory)更指出,美感愉悅源於視覺資訊被眼腦系統組織與導航的容易程度。
若純粹依賴 CLIP 這樣的語義編碼器,系統容易產生「物件中心偏見」,過度關注「狗」、「日落」等具體事物。實際的美感判斷深受前景與背景結構、色彩層次、亮度對比及照明不一致等非語義特徵影響。缺乏這些動態視覺流動理解,模型便無法真正體會視覺認知的流暢度,從而陷入過度重視物體辨識的認知盲點。
用 109 張眼動追蹤圖訓練 GAVE 視覺編碼器
為了解決上述缺陷,研究團隊借鑒大腦的雙重歷程理論(Dual-Process Theory),開發出結合視覺認知與語義感知的雙分支架構。標準的顯著性模型通常依賴大規模數據集的像素級迴歸訓練,但人類嬰兒在學會命名物體前幾個月,就能展現受低階特徵驅動的複雜掃描路徑。這意味著視覺注意力機制並非需要百萬樣本訓練的高維度語義功能,而是一種低維度的生物學先驗(biological prior)。
視覺路徑的核心是 GAVE(凝視對齊視覺編碼器),團隊採用 DINOv2(ViT-Small/14 架構)作為初級視覺皮層的計算代理。相較於依賴明確人類標註的監督式 CNN 架構,DINOv2 透過自監督學習機制,能夠在無指引下自然切割前景與背景,宛如生物系統中未經美學訓練就已具備的「種系發生先驗(phylogenetic prior)」。
訓練過程捨棄了耗費龐大資源的大數據迴歸,改用對比凝視對齊(Contrastive Gaze Alignment, CGA) 策略,體現生物視覺系統的資源合理性。團隊僅使用 109 張具備高保真人類眼動軌跡的圖像進行離線預訓練,透過 InfoNCE 損失函數,強迫視覺編碼器從干擾物中區分出特定圖像的眼動生物特徵。如此精簡的數據集反而有效避免了像素級別的死記硬背,讓模型成功從密集的軌跡中提取出掃視幅度與中心偏誤等普適性的觀看語法。
基於交叉注意力與 PLCC 混合損失的架構設計
進入第二階段後,AestheticNet 透過雙路徑模型將學習到的凝視先驗知識與高階語義理解相融合。語義分支採用凍結權重的 CLIP-ViT-L/14 提取語義嵌入向量,並與視覺分支提取的人類視覺動態特徵進行互動。團隊摒棄簡單的向量拼接,認為美感判斷是一種主動的探詢過程,因此改採交叉注意力(Cross-Attention)機制,讓抽象的語義意圖主導視覺特徵的讀取。
實際運作時,語義特徵作為查詢(Query),而視覺特徵則作為鍵(Key)與值(Value)。這種數學公式模擬了主動推論過程,透過投影構建出認知搜尋模板,根據當前的語義上下文來重新加權畫面中的結構特徵。最佳化階段則採用混合損失函數,結合用於確保數值精準度的 MSE(均方誤差),以及用於捕捉人類偏好單調排序的 PLCC(皮爾森線性相關係數) 懲罰項,抑制純 MSE 優化常出現的均值回歸效應,強制模型學習偏好的遞增關係。
AestheticNet 在 AVA 數據庫的效能測試
研究團隊在 AVA 數據庫 中篩選出包含風景、建築、靜物等 8 個標籤的子集,總計 89,677 張圖片,藉此驗證視覺注意力路徑的必要性。實驗結果顯示,AestheticNet 繳出 0.747 的成績,不僅超越人類專家基準(約 0.711),更大幅領先僅具備語義分支的 CLIP-L 模型(0.617),差距達到 +0.130,視覺化分佈圖也顯示其與真實評分高度對齊。
團隊進一步針對八大類別進行分析,發現效能提升涵蓋所有領域,其中以「靜物」提升 +0.087 與「建築」提升 +0.077 最為顯著。這些領域本就高度依賴幾何構圖、空間配置與視覺平衡,證明 GAVE 確實捕捉到了純語義模型難以理解的結構先驗知識。消融實驗更證實,即使在誤差極小的前一萬個高精準樣本中,只要屏蔽視覺或語義任何單一分支,預測表現都會明顯下滑。
ResNet 與 Q-Align 模型的即插即用驗證
為驗證人類視覺認知能否作為獨立的模組運作,團隊將凍結的 GAVE 整合至多款架構截然不同的 AQA 骨幹網路中。針對 ResNet-50、NIMA 與 HyperIQA 等標準模型,研究採用特徵層級融合策略,直接將凝視特徵與原模型的倒數第二層特徵向量拼接。對於大型多模態模型 Q-Align,則採用非侵入性的分數層級校正,將視覺模組的輸出作為輕量級殘差疊加在最終預測分數上。
實驗證明,引入凝視先驗資訊後,所有基準模型的效能皆獲得顯著改善,其中極度依賴語義的 CLIP-L 受益最大,PLCC 躍升 0.120。即使是作為機器感知天花板的 Q-Align,在疊加此生物認知模組後仍獲得統計學上的顯著修正。這充分證實「觀看語法」是一種正交的認知補充,可作為獨立且跨架構通用的認知修正器,彌補了靜態模型在動態觀看機制上的缺失。
美學判斷並非單向的語義解讀,將人類眼球探索動態轉化為跨架構通用的獨立模組,為構建具備真實視覺品味的 AI 提供了高效能的新路徑。