AHS: Adaptive Head Synthesis via Synthetic Data Augmentations
KAIST 團隊提出 AHS 技術,透過 70% 的生成式合成數據增強,突破零樣本頭部替換的姿態與髮型幾何限制。
- AHS 模型結合交叉與自注意力機制,利用法線貼圖實現零樣本頭部與表情精準控制。
- 採用 GAGAvatar 進行姿態數據增強,高達 32% 訓練數據包含大於 15 度的極端姿態差異。
- 首創兩階段推論與 90% 機率遮罩膨脹訓練,徹底解決長髮截斷與頭部比例不合問題。
傳統「換臉」技術長期受限於裁切視角,難以處理長髮、誇張表情或複雜的頭部轉動。為了解決這項真實場景的編輯挑戰,KAIST 研究團隊提出適應性頭部合成技術(Adaptive Head Synthesis, AHS),不僅能在單一模型內完成零樣本(Zero-shot,指模型在未見過特定個體數據的情況下直接進行推論)頭部替換,更透過高達 70% 的 GAGAvatar 合成數據增強,成功在保留原始身分與配件的同時,完美重現目標影像的頭部姿態與表情。
突破頭部替換空間限制的 AHS 架構
頭部替換(Head swapping)與一般的臉部替換有著根本上的差異。後者通常只針對臉部區域進行裁切與像素替換,但頭部替換必須將來源影像的完整頭部(包含髮型與輪廓)無縫整合到目標影像的身體上,同時重現目標的視角與表情。由於涵蓋了髮型長度變化與三維空間的幾何轉換,這項任務面臨極高的空間複雜度。
在架構設計上,AHS 採用了結合高低階特徵的擴散模型(Diffusion model)策略。團隊使用預訓練的 SDXL Inpainting 模型作為基礎,並引入了交叉注意力(Cross-attention)與自注意力(Self-attention)雙軌機制。具體而言,系統利用面部編碼器與頭部編碼器提取高階語意特徵,將來源影像的身分資訊注入主幹網路(S-Net);同時透過參考網路(H-Net)的自注意力機制保留低階的細節紋理。
為了精準控制合成後的姿態與表情,AHS 捨棄了複雜的預處理流程,改以導入密集姿態估計(Densepose map)與法線貼圖(Normal map)。團隊利用先進的頭部重建模型 EMOCA 提取目標影像的三維幾何資訊,將其轉換為法線貼圖作為顯式幾何提示,讓模型能夠在不需要龐大控制網路的情況下,有效捕捉並對齊目標影像的頭部屬性。
導入 GAGAvatar 的生成式數據增強策略
由於現實中極難取得「同一個人在不同姿態下」的完美配對影像,過去的頭部替換模型多半仰賴自監督學習進行自我重建(Self-reconstruction)訓練。然而,這種訓練方式會讓模型失去泛化能力,導致在面對極端面部表情或大幅度頭部旋轉時,產生嚴重的破圖或身分特徵流失。
為了突破配對數據缺乏的限制,團隊提出了一套生成式數據增強策略。他們利用目前最先進的可動畫化頭部化身模型 GAGAvatar,對訓練集中的原始影像進行隨機的姿態與表情重演。透過改變同一張臉的轉動角度與神情,但維持原始身分特徵不變,團隊為 AHS 憑空創造出大量帶有精確標註的配對訓練資料。
這套合成數據增強機制涵蓋了極廣的幾何變化。團隊採用平衡的採樣策略:37% 的數據帶有 5 度以內的姿態差異,31% 介於 5 到 10 度之間,更有高達 32% 的數據具備大於 15 度的極端姿態變化。表情參數的範圍也拉展至 [-0.52, 0.99],這種高度多樣性的數據分布,賦予了 AHS 在真實世界極端姿態配對下的強大魯棒性。
解決長髮與頭部比例差異的遮罩擴增技術
在處理全身或上半身影像時,來源影像與目標影像的頭部尺寸與髮型往往存在巨大差異。如果只是單純將目標影像原有的頭部輪廓作為遮罩(Mask),模型會受限於邊界,導致合成出來的頭部過小,或是長髮被生硬地截斷,產生不自然的拼貼感。
為了解決邊界束縛,AHS 在訓練階段導入了動態遮罩擴增機制。模型有 90% 的機率會對分割遮罩進行膨脹處理,有 50% 的機率會將其轉換為寬闊的邊界框(Bounding box),並有 50% 的機率與隨機遮罩合併。這種設計強迫模型學會在缺乏精確輪廓引導的情況下,自行推斷合理的頭部尺寸與髮型走向,避免盲目依賴目標影像的原始剪影。
在推論階段,AHS 採取兩階段修復生成(Two-step inpainting)策略。首先,系統會提供一個比目標頭部大上許多的邊界框讓模型進行初步生成,確保頭髮與頭部比例有足夠的伸展空間;接著,系統會從初步生成的影像中提取精確的頭頸部遮罩,並將其與目標身體影像重新合併,進行第二次局部修復。這不僅提升了髮型生成的自由度,更有效防止了背景或衣物在生成過程中發生形變扭曲。
4 張 H100 訓練的 SHHQ 數據集實測對比
硬體與訓練配置上,AHS 在 4 張 H100 (80GB) GPU 上進行了 70 輪的訓練,批次大小設為 6,採用 bfloat16 資料格式以提升運算效率,整體訓練耗時約 3 天。訓練資料庫採用了高畫質上半身數據集 SHHQ,並透過 GPT-4o 重新生成並融合了更精準的髮型文字描述。
實驗數據表明,AHS 在影像品質(FID)、身分相似度(ArcFace)、以及區域 CLIP-I 評估上,均顯著超越了現有的零樣本基準模型(包含 HID、REFace 與經過 ControlNet 改造的 InstantID)。特別是在面對配戴墨鏡、帽子等配件,或是極端姿態變化的測試中,AHS 展現了其他模型難以企及的配件保留能力與表情還原度。
針對複雜光源場景的潛在弱點,團隊也在後續實驗中結合了重打光模型(如 IC-Light)進行額外的數據增強。在 19 位受測者參與的 20 組隨機盲測中,AHS 在整體畫質、姿態一致性、髮型相似度等所有指標上,皆獲得了壓倒性的使用者偏好,證實其在實務應用上的高度潛力。
零樣本頭部合成技術將視角從單一臉部擴展至整體幾何,結合生成式合成數據增強,有望成為突破無配對影像編輯瓶頸的新標準。