Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars

Yicheng Gong, Jiawei Zhang, Liqiang Liu, Yanwen Wang, Lei Chu, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

突破數十個幾何參數的隱性綁定,透過雙路徑調變機制讓單圖 3D 虛擬人實現獨立的情感控制。

  • 提出雙路徑調變機制,在不改變前饋架構下獨立控制 3D 虛擬人情感。
  • 分離幾何變形標準化與外觀特徵融合,精準呈現專屬身分的動態皺紋細節。
  • 建構涵蓋 8,750 個目標身分的時間同步資料集,徹底解耦語音與情緒變化。

現有單圖 3D 頭部生成技術中,控制臉部動作的數十個幾何參數往往將語音與「情感」隱式打包,導致難以針對單一情緒進行獨立且一致的修改。這篇來自南京大學與微軟亞洲研究院的研究,提出將情感獨立為第一類顯式控制訊號。透過全新的雙路徑調變機制,讓 3D 虛擬人能在完全不改變原有前饋網路架構的條件下,展現獨立於語音的精準情感變化。

單圖 3D 虛擬人困境:將情感從幾何參數徹底解耦

從單張 RGB 圖像重建高品質 3D 頭部 Avatar(虛擬人),是虛擬實境與具身智慧領域的核心基礎。近期的前饋神經網路(feed-forward pipelines,資料單向傳遞無需反覆優化)已經能快速生成具備一致身分的幾何與外觀特徵。然而,這類技術在情感表達上依然受到極大限制。在多數系統中,情感並非一個獨立的控制變數,而是與臉部表情參數或驅動訊號糾纏在一起。

現有主流的 FLAME(一種參數化 3D 臉部模型)將語音驅動的嘴唇運動、發音關聯性以及情感變化,全部編碼在同一個共享的變形空間中。這種設計雖然提高了整體的表現力,但也將多種控制因素混合在一起。當開發者想要單純調整角色的情感時,往往會牽扯到語音對嘴的精準度,導致動畫產生不穩定的漂移。

此外,人類的真實情感並非僅靠幾何形狀的改變來傳遞。諸如皺紋深淺、皮膚張力的變化與細微的陰影等外觀線索,都在視覺上強烈影響了情緒的傳達。這些外觀變化高度依賴於使用者的個人身分特徵。同一種悲傷的情緒,在不同年齡與臉型的人身上,所產生的紋理變化截然不同,這也凸顯了將情感分離並重新模組化的必要性。

雙路徑調變設計:分離幾何標準化與專屬外觀特徵

為了解決情感與幾何糾纏的問題,研究團隊提出了一套名為「雙路徑情感感知調變(dual-path emotion-aware modulation)」的框架。其核心理念是不去更動現有重建架構的核心設計,而是將明確的情感標籤作為一個獨立的特徵向量,透過兩個相輔相成的路徑注入模型中。

第一條路徑是幾何調變(Geometry Modulation)。這項機制透過輕量級的 Transformer 直接對 FLAME 的表情與下巴參數進行條件化轉換。它並不會為模型增加新的變形基底或自由度,而是發揮了類似「參數空間標準化」的作用。由於驅動動作的表情參數通常包含與特定情緒綁定的殘餘偏差,注入情感標籤能將幾何變形重新對齊到目標情緒上,進而消除語音動態帶來的干擾。

第二條路徑則是外觀調變(Appearance Modulation)。幾何變形只能處理輪廓與張嘴幅度,但外觀調變能捕捉與身分相關的視覺細節。系統會提取參考圖像的外觀特徵,並與情感標籤進行融合。這種調變方式具備強烈的「身分感知」能力,它不會直接套用一個公版的情緒紋理,而是根據特定受試者的臉部特徵,動態生成專屬的表情細節變化。

建置同步情感資料集:轉移特徵至 8750 個身分

要讓模型學會獨立控制情感,最大的瓶頸在於缺乏適當的訓練資料。現有的開源資料庫中,情緒標註通常具有強烈的個人色彩,或者在錄製不同情緒時,說話的時間點無法對齊,導致演算法難以區分到底是情緒造成的臉部變化,還是單純語音時間差造成的位移。

為克服這項限制,團隊設計了一套嚴謹的多身分時間同步資料集建構流程。他們首先利用 EmoTalk3D 技術生成了一組少量的「錨點受試者(anchor subjects)」。在這些核心影片中,同一個人會用完全一樣的語速與時間點,以多種不同的情緒念出相同的句子。這種極端的控制環境確保了影格級別的絕對對應,排除了語音與時間差的干擾。

接下來,為了讓模型具備廣泛的適應力,團隊過濾並挑選了高達 8,750 個無特定情緒的目標身分圖像。透過 2D 換臉重現模型 X-NeMo,系統將錨點受試者的情感動態精準轉移到這八千多張臉上。最終產生的影片保留了錨點人物的時間結構與情緒標籤,同時維持了目標身分的獨特幾何與外觀,為後續的演算法訓練提供了極為乾淨的解耦監督訊號。

無縫整合 LAM 架構:實現平滑的跨身分情感插值

在具體的實驗驗證中,團隊將這套雙路徑框架以外掛的形式,整合進 LAM(Large Avatar Model)以及 Zhang et al. 等當前最先進的前饋神經網路架構中。在定量測試中,加入了情感控制模組的改進版模型,在影像保真度(PSNR, SSIM, LPIPS)與身分一致性指標上,皆與原始基準模型表現一致,證明這項技術不會破壞原有模型的重建品質。

更關鍵的是在「情感轉移」的測試中,傳統方法由於具備固化效應(baked-in effect),往往會把參考照片上原本帶有的微小皺紋或神態永久定格在 3D 模型上,導致無論套用什麼動作都顯得僵硬。而本研究的方法大幅降低了平均表情距離(Average Expression Distance, AED),證明能有效抹除照片自帶的情緒痕跡,並精準呈現指定的新情感。

值得一提的是,儘管模型在訓練階段僅使用了七種離散的情緒標籤,但在實際推論時,這套系統展現了高度的泛化能力。使用者可以在情緒潛在空間中進行連續的數值調變,實現從「開心」平滑過渡到「中性」再轉為「悲傷」的連續視覺效果。過程中角色不僅不會產生特徵崩潰,更保持了穩定的語音發聲唇形,為未來的虛擬代理人應用開啟了極大的想像空間。

將情感視為獨立的控制維度,結合幾何與外觀的雙路徑解耦,能讓單圖生成的 3D 虛擬人展現更精準且專屬的連續情感互動。

Abstract

We present a framework for explicit emotion control in feed-forward, single-image 3D head avatar reconstruction. Unlike existing pipelines where emotion is implicitly entangled with geometry or appearance, we treat emotion as a first-class control signal that can be manipulated independently and consistently across identities. Our method injects emotion into existing feed-forward architectures via a dual-path modulation mechanism without modifying their core design. Geometry modulation performs emotion-conditioned normalization in the original parametric space, disentangling emotional state from speech-driven articulation, while appearance modulation captures identity-aware, emotion-dependent visual cues beyond geometry. To enable learning under this setting, we construct a time-synchronized, emotion-consistent multi-identity dataset by transferring aligned emotional dynamics across identities. Integrated into multiple state-of-the-art backbones, our framework preserves reconstruction and reenactment fidelity while enabling controllable emotion transfer, disentangled manipulation, and smooth emotion interpolation, advancing expressive and scalable 3D head avatars.