Motion-Adapter: A Diffusion Model Adapter for Text-to-Motion Generation of Compound Actions

Yue Jiang, Mingyu Yang, Liuyuxin Yang, Yang Xu, Bingxin Yun, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

西北大學提出隨插即用的 Motion-Adapter 模組,利用解耦交叉注意力遮罩引導擴散模型,成功在 484 種複合指令測試中生成極度流暢的雙重物理動作。

  • 解決現有模型災難性忽略與注意力崩塌問題,避免多個動作指令被互相覆寫或空間特徵過度融合。
  • 採用隨插即用設計,無須配對的複合動作訓練集,單純使用單一動作庫訓練即可結合至現有擴散模型。
  • 實作動態遮罩管控,在去噪流程末端停止干預,於使用者評估中取得 9.27 的超高語義還原度得分。

讓 AI 生成一段「邊走路邊舉啞鈴」的同時動作序列,成功率往往出乎意料地低。現有文字生成動作(Text-to-Motion)擴散模型在處理這類需求時,常因為特徵過度融合,導致動作相互覆蓋或肢體空間位置混亂。西北大學研究團隊提出的 Motion-Adapter 模組,無需成對的複合動作訓練資料,僅靠單一動作庫訓練,便能在包含 484 種複合指令的基準測試中,取得 9.27 分(滿分 10 分)的語義對齊高分,遠超多數表現低於 6 分的基準模型。

解決擴散模型生成複合動作的兩大技術瓶頸

現有生成框架在嘗試將多個子動作結合成連貫的全身序列時,主要會遭遇兩個難題。首先是「災難性忽略(catastrophic neglect)」,模型在處理時序資訊與解碼時,常會因為後續的動作指令,導致早期定義的動作特徵被完全覆寫。這使得 AI 只能產生單一動作,或是將兩個動作生硬地變成先後順序,無法呈現同時發生的物理行為。

另一大阻礙則是「注意力崩塌(attention collapse)」。擴散模型在生成肢體動作時高度依賴交叉注意力機制,但為了整合各個身體節點,模型往往會進行極端的特徵融合。這會大幅削弱原始注意力圖的空間區分能力,讓模型無法精準判定哪些動作該歸屬於上半身或下半身。為了繞過這些問題,過去的方法多半依賴極度冗長的文字描述,或強制指定特定身體部位,甚至是透過 LLM(大型語言模型) 進行詞彙拆解,但這類做法缺乏對物理結構與運動機制的語義精確度。

Motion-Adapter 以解耦交叉注意力提取結構遮罩

為了解決特徵混淆,團隊將 Motion-Adapter 設計為一個獨立的隨插即用模組。架構中包含五個 STEncoder(時空編碼器) 模組,每個模組結合了針對骨架的 1D 卷積與針對時序的 1D 卷積,並搭配池化層來控制空間與時間維度的縮放。透過將人體的 22 個關節特徵轉化為通道資訊,此架構能有效捕捉動作的時空動態變化。

在每一層編碼器後方,模組會接入交叉注意力層,利用預先訓練好的 CLIP(圖文特徵比對模型) 處理文字特徵,並與動作特徵進行對齊。研究人員特別選取第三層的交叉注意力圖,因為它能用最少的關節數有效代表特定身體部位。這些注意力圖會被轉換為範圍介於 0 到 1 的「結構遮罩」,並在擴散模型的去噪(denoising)過程中,針對特定的噪聲特徵進行遮蔽與引導。

設定遮罩時,演算法還加入了結構一致性約束條件。例如,上半身的關節會被綁定視為一組,而推動人體前進的根節點則會與下半身關節綁定。只有當某個區域內至少有兩個關節被活化時,該區域的遮罩才會生效,此機制能大幅避免產生不合解剖學或極度扭曲的怪異姿態。

單一動作資料即可訓練且無須改動 MDM 骨幹

訓練這套系統的硬體門檻相對友善,團隊在單張 NVIDIA 2080 Ti 顯示卡上執行,並選用 HumanML3D 資料集進行 2,000 個 epoch 的訓練。最關鍵的是,模型完全採用自我監督學習,只輸入「單一動作」的動態數據與對應文字,以均方誤差(MSE)作為損失函數來重建動作序列,過程中不需要任何額外標註或複合動作配對資料。

進入推理階段時,Motion-Adapter 可以直接無縫掛載到 MDMMotionDiffuse 等現成的文字生成動作擴散模型上。為了避免訓練集裡半靜態或全動態資料的誤導,模組會基於中介的預估動作量來生成注意力圖。有趣的是,研究團隊發現若在整個去噪週期都套用遮罩,會導致動作僵硬;因此系統設定在第 750 步後停止生成新遮罩,並在第 250 步後全面停止套用遮罩,放手讓擴散模型自然融合剩下的特徵,藉此換取更平滑流暢的肢體動態。

建構 484 種複合指令測試超越 STMC 模型

為了進行嚴格評估,研究團隊從現有資料集挑選出 22 種上半身動作與 22 種下半身動作,交叉配對成 484 種複合指令基準。在質性對比中,像是 STMC 這類空間組合模型面對「邊伸展邊跳躍」的指令時,經常會漏掉其中一項動作,或錯誤地把伸展變成彎腰。這是因為語言模型主要掌握的是統計規律,而非真實世界的物理語義。

相較之下,掛載了 Motion-Adapter 的模型能在諸如「打招呼並跑步」或「丟擲並跑步」這類上半身肢體相互重疊的高難度任務中,保持極高的時序一致性與動作自然度。在定量的品質檢測中,透過重新校準的評估模型計算,新方法在代表語義對齊度的 R-PrecisionMM-Dist 指標上均獲得最佳成績,而在反映特徵分佈真實性的 FID(特徵距離指標) 上,也顯示出最貼近真實人類運動資料的表現。

65 人使用者研究確認達 9.27 高分還原度

團隊亦招募了 65 名受試者進行雙盲測試,評估生成結果的語義保真度、感知品質與整體視覺流暢度。在「動作與文字吻合度」的項目中,基於 Motion-Adapter 的生成結果分別獲得了 9.27 分9.08 分的壓倒性評價,完全碾壓所有得分不到 6 分的競爭對手。當受試者被要求單純看著 3D 小人辨識其動作時,其他基準模型的辨識成功率僅約 50%,因為它們往往只做出一半的動作指令。

消融實驗進一步證實了遮罩步驟限制的必要性。若強行移除「第 250 步後停止套用遮罩」的設定,模型在 Transition(過渡平滑度)指標上的數值會明顯飆高,這意味著動作邊界會出現非自然的突兀變化。過度強調特定關節的活化,反而會破壞人體上下半身的協調性,印證了適時的「軟性引導」比全程的「硬性約束」更能產出高水準的 3D 動畫素材。

透過解耦注意力遮罩適時介入去噪過程,AI 無需重新訓練即可精確控制全身複合動作,為 3D 角色動畫帶來兼具語義準確度與物理協調性的全新解法。

Abstract

Recent advances in generative motion synthesis have enabled the production of realistic human motions from diverse input modalities. However, synthesizing compound actions from texts, which integrate multiple concurrent actions into coherent full-body sequences, remains a major challenge. We identify two key limitations in current text-to-motion diffusion models: (i) catastrophic neglect, where earlier actions are overwritten by later ones due to improper handling of temporal information, and (ii) attention collapse, which arises from excessive feature fusion in cross-attention mechanisms. As a result, existing approaches often depend on overly detailed textual descriptions (e.g., raising right hand), explicit body-part specifications (e.g., editing the upper body), or the use of large language models (LLMs) for body-part interpretation. These strategies lead to deficient semantic representations of physical structures and kinematic mechanisms, limiting the ability to incorporate natural behaviors such as greeting while walking. To address these issues, we propose the Motion-Adapter, a plug-and-play module that guides text-to-motion diffusion models in generating compound actions by computing decoupled cross-attention maps, which serve as structural masks during the denoising process. Extensive experiments demonstrate that our method consistently produces more faithful and coherent compound motions across diverse textual prompts, surpassing state-of-the-art approaches.