AHS: Adaptive Head Synthesis via Synthetic Data Augmentations

Taewoong Kang, Hyojin Jang, Sohyun Jeong, Seunggi Moon, Gihwi Kim, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

KAIST 團隊提出 AHS 技術,透過 70% 的生成式合成數據增強,突破零樣本頭部替換的姿態與髮型幾何限制。

  • AHS 模型結合交叉與自注意力機制,利用法線貼圖實現零樣本頭部與表情精準控制。
  • 採用 GAGAvatar 進行姿態數據增強,高達 32% 訓練數據包含大於 15 度的極端姿態差異。
  • 首創兩階段推論與 90% 機率遮罩膨脹訓練,徹底解決長髮截斷與頭部比例不合問題。

傳統「換臉」技術長期受限於裁切視角,難以處理長髮、誇張表情或複雜的頭部轉動。為了解決這項真實場景的編輯挑戰,KAIST 研究團隊提出適應性頭部合成技術(Adaptive Head Synthesis, AHS),不僅能在單一模型內完成零樣本(Zero-shot,指模型在未見過特定個體數據的情況下直接進行推論)頭部替換,更透過高達 70% 的 GAGAvatar 合成數據增強,成功在保留原始身分與配件的同時,完美重現目標影像的頭部姿態與表情。

突破頭部替換空間限制的 AHS 架構

頭部替換(Head swapping)與一般的臉部替換有著根本上的差異。後者通常只針對臉部區域進行裁切與像素替換,但頭部替換必須將來源影像的完整頭部(包含髮型與輪廓)無縫整合到目標影像的身體上,同時重現目標的視角與表情。由於涵蓋了髮型長度變化與三維空間的幾何轉換,這項任務面臨極高的空間複雜度。

在架構設計上,AHS 採用了結合高低階特徵的擴散模型(Diffusion model)策略。團隊使用預訓練的 SDXL Inpainting 模型作為基礎,並引入了交叉注意力(Cross-attention)與自注意力(Self-attention)雙軌機制。具體而言,系統利用面部編碼器與頭部編碼器提取高階語意特徵,將來源影像的身分資訊注入主幹網路(S-Net);同時透過參考網路(H-Net)的自注意力機制保留低階的細節紋理。

為了精準控制合成後的姿態與表情,AHS 捨棄了複雜的預處理流程,改以導入密集姿態估計(Densepose map)與法線貼圖(Normal map)。團隊利用先進的頭部重建模型 EMOCA 提取目標影像的三維幾何資訊,將其轉換為法線貼圖作為顯式幾何提示,讓模型能夠在不需要龐大控制網路的情況下,有效捕捉並對齊目標影像的頭部屬性。

導入 GAGAvatar 的生成式數據增強策略

由於現實中極難取得「同一個人在不同姿態下」的完美配對影像,過去的頭部替換模型多半仰賴自監督學習進行自我重建(Self-reconstruction)訓練。然而,這種訓練方式會讓模型失去泛化能力,導致在面對極端面部表情或大幅度頭部旋轉時,產生嚴重的破圖或身分特徵流失。

為了突破配對數據缺乏的限制,團隊提出了一套生成式數據增強策略。他們利用目前最先進的可動畫化頭部化身模型 GAGAvatar,對訓練集中的原始影像進行隨機的姿態與表情重演。透過改變同一張臉的轉動角度與神情,但維持原始身分特徵不變,團隊為 AHS 憑空創造出大量帶有精確標註的配對訓練資料。

這套合成數據增強機制涵蓋了極廣的幾何變化。團隊採用平衡的採樣策略:37% 的數據帶有 5 度以內的姿態差異,31% 介於 5 到 10 度之間,更有高達 32% 的數據具備大於 15 度的極端姿態變化。表情參數的範圍也拉展至 [-0.52, 0.99],這種高度多樣性的數據分布,賦予了 AHS 在真實世界極端姿態配對下的強大魯棒性。

解決長髮與頭部比例差異的遮罩擴增技術

在處理全身或上半身影像時,來源影像與目標影像的頭部尺寸與髮型往往存在巨大差異。如果只是單純將目標影像原有的頭部輪廓作為遮罩(Mask),模型會受限於邊界,導致合成出來的頭部過小,或是長髮被生硬地截斷,產生不自然的拼貼感。

為了解決邊界束縛,AHS 在訓練階段導入了動態遮罩擴增機制。模型有 90% 的機率會對分割遮罩進行膨脹處理,有 50% 的機率會將其轉換為寬闊的邊界框(Bounding box),並有 50% 的機率與隨機遮罩合併。這種設計強迫模型學會在缺乏精確輪廓引導的情況下,自行推斷合理的頭部尺寸與髮型走向,避免盲目依賴目標影像的原始剪影。

在推論階段,AHS 採取兩階段修復生成(Two-step inpainting)策略。首先,系統會提供一個比目標頭部大上許多的邊界框讓模型進行初步生成,確保頭髮與頭部比例有足夠的伸展空間;接著,系統會從初步生成的影像中提取精確的頭頸部遮罩,並將其與目標身體影像重新合併,進行第二次局部修復。這不僅提升了髮型生成的自由度,更有效防止了背景或衣物在生成過程中發生形變扭曲。

4 張 H100 訓練的 SHHQ 數據集實測對比

硬體與訓練配置上,AHS 在 4 張 H100 (80GB) GPU 上進行了 70 輪的訓練,批次大小設為 6,採用 bfloat16 資料格式以提升運算效率,整體訓練耗時約 3 天。訓練資料庫採用了高畫質上半身數據集 SHHQ,並透過 GPT-4o 重新生成並融合了更精準的髮型文字描述。

實驗數據表明,AHS 在影像品質(FID)、身分相似度(ArcFace)、以及區域 CLIP-I 評估上,均顯著超越了現有的零樣本基準模型(包含 HID、REFace 與經過 ControlNet 改造的 InstantID)。特別是在面對配戴墨鏡、帽子等配件,或是極端姿態變化的測試中,AHS 展現了其他模型難以企及的配件保留能力與表情還原度。

針對複雜光源場景的潛在弱點,團隊也在後續實驗中結合了重打光模型(如 IC-Light)進行額外的數據增強。在 19 位受測者參與的 20 組隨機盲測中,AHS 在整體畫質、姿態一致性、髮型相似度等所有指標上,皆獲得了壓倒性的使用者偏好,證實其在實務應用上的高度潛力。

零樣本頭部合成技術將視角從單一臉部擴展至整體幾何,結合生成式合成數據增強,有望成為突破無配對影像編輯瓶頸的新標準。

Abstract

Recent digital media advancements have created increasing demands for sophisticated portrait manipulation techniques, particularly head swapping, where one's head is seamlessly integrated with another's body. However, current approaches predominantly rely on face-centered cropped data with limited view angles, significantly restricting their real-world applicability. They struggle with diverse head expressions, varying hairstyles, and natural blending beyond facial regions. To address these limitations, we propose Adaptive Head Synthesis (AHS), which effectively handles full upper-body images with varied head poses and expressions. AHS incorporates a novel head reenacted synthetic data augmentation strategy to overcome self-supervised training constraints, enhancing generalization across diverse facial expressions and orientations without requiring paired training data. Comprehensive experiments demonstrate that AHS achieves superior performance in challenging real-world scenarios, producing visually coherent results that preserve identity and expression fidelity across various head orientations and hairstyles. Notably, AHS shows exceptional robustness in maintaining facial identity while drastic expression changes and faithfully preserving accessories while significant head pose variations.