突破數十個幾何參數的隱性綁定，透過雙路徑調變機制讓單圖 3D 虛擬人實現獨立的情感控制。

AI 導讀 technology AI 重要性 4/5

提出雙路徑調變機制，在不改變前饋架構下獨立控制 3D 虛擬人情感。
分離幾何變形標準化與外觀特徵融合，精準呈現專屬身分的動態皺紋細節。
建構涵蓋 8,750 個目標身分的時間同步資料集，徹底解耦語音與情緒變化。

現有單圖 3D 頭部生成技術中，控制臉部動作的數十個幾何參數往往將語音與「情感」隱式打包，導致難以針對單一情緒進行獨立且一致的修改。這篇來自南京大學與微軟亞洲研究院的研究，提出將情感獨立為第一類顯式控制訊號。透過全新的雙路徑調變機制，讓 3D 虛擬人能在完全不改變原有前饋網路架構的條件下，展現獨立於語音的精準情感變化。

單圖 3D 虛擬人困境：將情感從幾何參數徹底解耦

從單張 RGB 圖像重建高品質 3D 頭部 Avatar（虛擬人），是虛擬實境與具身智慧領域的核心基礎。近期的前饋神經網路（feed-forward pipelines，資料單向傳遞無需反覆優化）已經能快速生成具備一致身分的幾何與外觀特徵。然而，這類技術在情感表達上依然受到極大限制。在多數系統中，情感並非一個獨立的控制變數，而是與臉部表情參數或驅動訊號糾纏在一起。

現有主流的 FLAME（一種參數化 3D 臉部模型）將語音驅動的嘴唇運動、發音關聯性以及情感變化，全部編碼在同一個共享的變形空間中。這種設計雖然提高了整體的表現力，但也將多種控制因素混合在一起。當開發者想要單純調整角色的情感時，往往會牽扯到語音對嘴的精準度，導致動畫產生不穩定的漂移。

此外，人類的真實情感並非僅靠幾何形狀的改變來傳遞。諸如皺紋深淺、皮膚張力的變化與細微的陰影等外觀線索，都在視覺上強烈影響了情緒的傳達。這些外觀變化高度依賴於使用者的個人身分特徵。同一種悲傷的情緒，在不同年齡與臉型的人身上，所產生的紋理變化截然不同，這也凸顯了將情感分離並重新模組化的必要性。

雙路徑調變設計：分離幾何標準化與專屬外觀特徵

為了解決情感與幾何糾纏的問題，研究團隊提出了一套名為「雙路徑情感感知調變（dual-path emotion-aware modulation）」的框架。其核心理念是不去更動現有重建架構的核心設計，而是將明確的情感標籤作為一個獨立的特徵向量，透過兩個相輔相成的路徑注入模型中。

第一條路徑是幾何調變（Geometry Modulation）。這項機制透過輕量級的 Transformer 直接對 FLAME 的表情與下巴參數進行條件化轉換。它並不會為模型增加新的變形基底或自由度，而是發揮了類似「參數空間標準化」的作用。由於驅動動作的表情參數通常包含與特定情緒綁定的殘餘偏差，注入情感標籤能將幾何變形重新對齊到目標情緒上，進而消除語音動態帶來的干擾。

第二條路徑則是外觀調變（Appearance Modulation）。幾何變形只能處理輪廓與張嘴幅度，但外觀調變能捕捉與身分相關的視覺細節。系統會提取參考圖像的外觀特徵，並與情感標籤進行融合。這種調變方式具備強烈的「身分感知」能力，它不會直接套用一個公版的情緒紋理，而是根據特定受試者的臉部特徵，動態生成專屬的表情細節變化。

建置同步情感資料集：轉移特徵至 8750 個身分

要讓模型學會獨立控制情感，最大的瓶頸在於缺乏適當的訓練資料。現有的開源資料庫中，情緒標註通常具有強烈的個人色彩，或者在錄製不同情緒時，說話的時間點無法對齊，導致演算法難以區分到底是情緒造成的臉部變化，還是單純語音時間差造成的位移。

為克服這項限制，團隊設計了一套嚴謹的多身分時間同步資料集建構流程。他們首先利用 EmoTalk3D 技術生成了一組少量的「錨點受試者（anchor subjects）」。在這些核心影片中，同一個人會用完全一樣的語速與時間點，以多種不同的情緒念出相同的句子。這種極端的控制環境確保了影格級別的絕對對應，排除了語音與時間差的干擾。

接下來，為了讓模型具備廣泛的適應力，團隊過濾並挑選了高達 8,750 個無特定情緒的目標身分圖像。透過 2D 換臉重現模型 X-NeMo，系統將錨點受試者的情感動態精準轉移到這八千多張臉上。最終產生的影片保留了錨點人物的時間結構與情緒標籤，同時維持了目標身分的獨特幾何與外觀，為後續的演算法訓練提供了極為乾淨的解耦監督訊號。

無縫整合 LAM 架構：實現平滑的跨身分情感插值

在具體的實驗驗證中，團隊將這套雙路徑框架以外掛的形式，整合進 LAM（Large Avatar Model）以及 Zhang et al. 等當前最先進的前饋神經網路架構中。在定量測試中，加入了情感控制模組的改進版模型，在影像保真度（PSNR, SSIM, LPIPS）與身分一致性指標上，皆與原始基準模型表現一致，證明這項技術不會破壞原有模型的重建品質。

更關鍵的是在「情感轉移」的測試中，傳統方法由於具備固化效應（baked-in effect），往往會把參考照片上原本帶有的微小皺紋或神態永久定格在 3D 模型上，導致無論套用什麼動作都顯得僵硬。而本研究的方法大幅降低了平均表情距離（Average Expression Distance, AED），證明能有效抹除照片自帶的情緒痕跡，並精準呈現指定的新情感。

值得一提的是，儘管模型在訓練階段僅使用了七種離散的情緒標籤，但在實際推論時，這套系統展現了高度的泛化能力。使用者可以在情緒潛在空間中進行連續的數值調變，實現從「開心」平滑過渡到「中性」再轉為「悲傷」的連續視覺效果。過程中角色不僅不會產生特徵崩潰，更保持了穩定的語音發聲唇形，為未來的虛擬代理人應用開啟了極大的想像空間。

將情感視為獨立的控制維度，結合幾何與外觀的雙路徑解耦，能讓單圖生成的 3D 虛擬人展現更精準且專屬的連續情感互動。

Abstract

We present a framework for explicit emotion control in feed-forward, single-image 3D head avatar reconstruction. Unlike existing pipelines where emotion is implicitly entangled with geometry or appearance, we treat emotion as a first-class control signal that can be manipulated independently and consistently across identities. Our method injects emotion into existing feed-forward architectures via a dual-path modulation mechanism without modifying their core design. Geometry modulation performs emotion-conditioned normalization in the original parametric space, disentangling emotional state from speech-driven articulation, while appearance modulation captures identity-aware, emotion-dependent visual cues beyond geometry. To enable learning under this setting, we construct a time-synchronized, emotion-consistent multi-identity dataset by transferring aligned emotional dynamics across identities. Integrated into multiple state-of-the-art backbones, our framework preserves reconstruction and reenactment fidelity while enabling controllable emotion transfer, disentangled manipulation, and smooth emotion interpolation, advancing expressive and scalable 3D head avatars.

Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars

單圖 3D 虛擬人困境：將情感從幾何參數徹底解耦

雙路徑調變設計：分離幾何標準化與專屬外觀特徵

建置同步情感資料集：轉移特徵至 8750 個身分

無縫整合 LAM 架構：實現平滑的跨身分情感插值

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。