Motion-Adapter: A Diffusion Model Adapter for Text-to-Motion Generation of Compound Actions
西北大學提出隨插即用的 Motion-Adapter 模組,利用解耦交叉注意力遮罩引導擴散模型,成功在 484 種複合指令測試中生成極度流暢的雙重物理動作。
- 解決現有模型災難性忽略與注意力崩塌問題,避免多個動作指令被互相覆寫或空間特徵過度融合。
- 採用隨插即用設計,無須配對的複合動作訓練集,單純使用單一動作庫訓練即可結合至現有擴散模型。
- 實作動態遮罩管控,在去噪流程末端停止干預,於使用者評估中取得 9.27 的超高語義還原度得分。
讓 AI 生成一段「邊走路邊舉啞鈴」的同時動作序列,成功率往往出乎意料地低。現有文字生成動作(Text-to-Motion)擴散模型在處理這類需求時,常因為特徵過度融合,導致動作相互覆蓋或肢體空間位置混亂。西北大學研究團隊提出的 Motion-Adapter 模組,無需成對的複合動作訓練資料,僅靠單一動作庫訓練,便能在包含 484 種複合指令的基準測試中,取得 9.27 分(滿分 10 分)的語義對齊高分,遠超多數表現低於 6 分的基準模型。
解決擴散模型生成複合動作的兩大技術瓶頸
現有生成框架在嘗試將多個子動作結合成連貫的全身序列時,主要會遭遇兩個難題。首先是「災難性忽略(catastrophic neglect)」,模型在處理時序資訊與解碼時,常會因為後續的動作指令,導致早期定義的動作特徵被完全覆寫。這使得 AI 只能產生單一動作,或是將兩個動作生硬地變成先後順序,無法呈現同時發生的物理行為。
另一大阻礙則是「注意力崩塌(attention collapse)」。擴散模型在生成肢體動作時高度依賴交叉注意力機制,但為了整合各個身體節點,模型往往會進行極端的特徵融合。這會大幅削弱原始注意力圖的空間區分能力,讓模型無法精準判定哪些動作該歸屬於上半身或下半身。為了繞過這些問題,過去的方法多半依賴極度冗長的文字描述,或強制指定特定身體部位,甚至是透過 LLM(大型語言模型) 進行詞彙拆解,但這類做法缺乏對物理結構與運動機制的語義精確度。
Motion-Adapter 以解耦交叉注意力提取結構遮罩
為了解決特徵混淆,團隊將 Motion-Adapter 設計為一個獨立的隨插即用模組。架構中包含五個 STEncoder(時空編碼器) 模組,每個模組結合了針對骨架的 1D 卷積與針對時序的 1D 卷積,並搭配池化層來控制空間與時間維度的縮放。透過將人體的 22 個關節特徵轉化為通道資訊,此架構能有效捕捉動作的時空動態變化。
在每一層編碼器後方,模組會接入交叉注意力層,利用預先訓練好的 CLIP(圖文特徵比對模型) 處理文字特徵,並與動作特徵進行對齊。研究人員特別選取第三層的交叉注意力圖,因為它能用最少的關節數有效代表特定身體部位。這些注意力圖會被轉換為範圍介於 0 到 1 的「結構遮罩」,並在擴散模型的去噪(denoising)過程中,針對特定的噪聲特徵進行遮蔽與引導。
設定遮罩時,演算法還加入了結構一致性約束條件。例如,上半身的關節會被綁定視為一組,而推動人體前進的根節點則會與下半身關節綁定。只有當某個區域內至少有兩個關節被活化時,該區域的遮罩才會生效,此機制能大幅避免產生不合解剖學或極度扭曲的怪異姿態。
單一動作資料即可訓練且無須改動 MDM 骨幹
訓練這套系統的硬體門檻相對友善,團隊在單張 NVIDIA 2080 Ti 顯示卡上執行,並選用 HumanML3D 資料集進行 2,000 個 epoch 的訓練。最關鍵的是,模型完全採用自我監督學習,只輸入「單一動作」的動態數據與對應文字,以均方誤差(MSE)作為損失函數來重建動作序列,過程中不需要任何額外標註或複合動作配對資料。
進入推理階段時,Motion-Adapter 可以直接無縫掛載到 MDM 或 MotionDiffuse 等現成的文字生成動作擴散模型上。為了避免訓練集裡半靜態或全動態資料的誤導,模組會基於中介的預估動作量來生成注意力圖。有趣的是,研究團隊發現若在整個去噪週期都套用遮罩,會導致動作僵硬;因此系統設定在第 750 步後停止生成新遮罩,並在第 250 步後全面停止套用遮罩,放手讓擴散模型自然融合剩下的特徵,藉此換取更平滑流暢的肢體動態。
建構 484 種複合指令測試超越 STMC 模型
為了進行嚴格評估,研究團隊從現有資料集挑選出 22 種上半身動作與 22 種下半身動作,交叉配對成 484 種複合指令基準。在質性對比中,像是 STMC 這類空間組合模型面對「邊伸展邊跳躍」的指令時,經常會漏掉其中一項動作,或錯誤地把伸展變成彎腰。這是因為語言模型主要掌握的是統計規律,而非真實世界的物理語義。
相較之下,掛載了 Motion-Adapter 的模型能在諸如「打招呼並跑步」或「丟擲並跑步」這類上半身肢體相互重疊的高難度任務中,保持極高的時序一致性與動作自然度。在定量的品質檢測中,透過重新校準的評估模型計算,新方法在代表語義對齊度的 R-Precision 與 MM-Dist 指標上均獲得最佳成績,而在反映特徵分佈真實性的 FID(特徵距離指標) 上,也顯示出最貼近真實人類運動資料的表現。
65 人使用者研究確認達 9.27 高分還原度
團隊亦招募了 65 名受試者進行雙盲測試,評估生成結果的語義保真度、感知品質與整體視覺流暢度。在「動作與文字吻合度」的項目中,基於 Motion-Adapter 的生成結果分別獲得了 9.27 分與 9.08 分的壓倒性評價,完全碾壓所有得分不到 6 分的競爭對手。當受試者被要求單純看著 3D 小人辨識其動作時,其他基準模型的辨識成功率僅約 50%,因為它們往往只做出一半的動作指令。
消融實驗進一步證實了遮罩步驟限制的必要性。若強行移除「第 250 步後停止套用遮罩」的設定,模型在 Transition(過渡平滑度)指標上的數值會明顯飆高,這意味著動作邊界會出現非自然的突兀變化。過度強調特定關節的活化,反而會破壞人體上下半身的協調性,印證了適時的「軟性引導」比全程的「硬性約束」更能產出高水準的 3D 動畫素材。
透過解耦注意力遮罩適時介入去噪過程,AI 無需重新訓練即可精確控制全身複合動作,為 3D 角色動畫帶來兼具語義準確度與物理協調性的全新解法。