Diffusion Crossover: Defining Evolutionary Recombination in Diffusion Models via Noise Sequence Interpolation
球面插值 1000 步擴散雜訊,團隊首度實現不失真的 AI 影像演化與基因重組。
- 球面插值擴散模型雜訊序列,使生成影像完美繼承雙親幾何特徵。
- 調控插值時間,精準控制 100 到 900 步影像多樣性與特徵收斂。
- 經歷 7 代互動實測,成功產出符合使用者偏好的高還原度幾何影像。
在傳統互動式演化計算中,生成兼具雙親特徵的影像常遭遇語意崩壞。日本同志社大學提出擴散交配(Diffusion Crossover)框架,在 DDPM(去噪擴散機率模型)的逆向過程中,對長達 1000 步的雜訊序列執行球面線性插值。實驗證實,鎖定 600 步插值區間,能在 7 代探索中完美平衡特徵遺傳與多樣性,讓 AI 繪圖首度具備精確的基因重組能力。
高維度語意特徵融合:定義 DDPM 擴散交配
互動式演化計算(IEC,允許人類透過主觀偏好直接評估解的演算法)在服裝或傢俱設計等主觀美學領域具有龐大潛力。然而,在處理高維度生成表徵時,往往難以定義具備語意一致性且不破壞影像結構的「交配(Crossover)」機制。過去的研究大多依賴 GAN(生成對抗網路)或 VAE(變分自編碼器)進行潛在向量運算,卻常面臨訓練不穩定或生成品質低落的挑戰。
近期雖有研究嘗試引入擴散模型,但多半停留在修改初始文字提示詞(Prompt)或將潛在空間進行粗略切割(如 Voronoi 交配),這類作法難以實現全局風格或影像結構的語意級別融合。研究團隊因而轉向高穩定性的 DDPM(去噪擴散機率模型),將生成軌跡從單純的初始變數設定,提升為具備時間維度的結構化演化搜尋空間,藉此直接介入影像從無到有的形塑歷程。
介入 1000 步逆向擴散的球面線性插值機制
重新定義「基因型」是這項研究的核心突破。團隊並非單純混合初始雜訊,而是將目標鎖定在擴散模型逆向去噪過程中,每一步獨立採樣並添加的高斯雜訊序列($Z$)。擴散模型的生成本質上是一個從粗略結構到細緻紋理的漸進過程,這些逐次加入的隨機雜訊,正是賦予影像多樣性的關鍵變數。
當使用者選定兩張偏好的父代影像後,系統會提取其對應的雜訊序列,並在展平為一維向量後應用球面線性插值(Slerp)。這項技術能在保持向量範數(Norm)不變的情況下,以恆定的角速度在兩個高維度雜訊之間進行平滑過渡。新生成的後代影像因此能同時繼承雙親的幾何結構與特徵,避免傳統線性相加可能導致的影像失真與視覺崩壞。
調控 t_interp 界定 100 到 900 步探索空間
演化演算法必須在探索(多樣性)與開發(收斂性)之間取得精確平衡。研究人員引入了插值持續時間參數 $t_{interp}$ 來控制這條演化界線。在總數為 1000 步的逆向擴散過程中,系統會在最前段的 $t_{interp}$ 步完全使用混合後的插值雜訊,此階段等同於演化學中的「交配」;而在剩餘的去噪步驟中,則恢復採樣全新的隨機高斯雜訊,發揮類似「突變」的作用。
實驗數據與 Spearman 等級相關係數分析指出,當 $t_{interp}$ 從 100 步逐漸增加至 900 步時,後代影像間的 LPIPS(學習感知影像塊相似度,數值越小代表越相似)距離呈現顯著的單調下降趨勢($p < 0.05$)。這意味著延長插值時間會大幅壓縮重新採樣隨機雜訊的空間,讓生成的影像更忠於父母特徵;反之,若縮短插值時間,則能透過增加突變比例,激發出更多未知的設計變體。
手寫數字與 3D 模型經歷 7 代收斂的互動實測
為了驗證這套機制在真實人機協作中的有效性,團隊使用 MNIST(手寫數字資料集)的數字「5」以及 ModelNet40(3D 幾何模型庫)的沙發類別進行定性與定量評估。在設定為尋找「厚實粗體 5」與「L 型坐墊沙發」的兩項互動演化實驗中,使用者在每一代從生成的 10 張候選影像中挑選 2 張作為父代,以此驅動下一代的生成。
主成分分析(PCA)與生成結果顯示,初始的第一代族群呈現極高且隨機的多樣性。但在人為選擇與擴散交配的連續作用下,歷經 7 代的演化,影像的全局幾何特徵被穩定保留下來,並精確收斂至符合人類視覺偏好的目標形狀。同時,當團隊將線性插值係數 $\lambda$ 從 0.1 逐步調整至 0.9 時,兩張父代影像間的漸變過程也展現出完美的感知平滑度。
捨棄空間拼接:雜訊序列非局部性的實證解析
傳統的基因交配常依賴空間上的切割與重組,例如將兩張圖片的左半部與右半部拼接。然而,研究團隊提出假設並證實,在擴散模型中進行單純的「空間局部交配」是無效的。在操作模型生成的觀察中發現,如果將具有 L 型結構的沙發作為父代之一,強行進行局部變更往往會產生 U 型或結構反轉的異常物件。
這項發現表明,在擴散模型中,雜訊序列的空間座標並非直接、局部地映射到最終影像的特定區域。隨著每一層雜訊被 U-Net 架構反覆處理,雜訊早已轉化為高維度的全局表徵。這也是為什麼本研究堅持對完整序列進行插值,證明了只有全局性的操作,才能真正實現影像語意層級的完美融合。
克服 40 秒生成延遲與潛在擴散模型結合路徑
儘管擴散交配展現了優異的語意控制力與幾何延續性,硬體運算成本仍是實際投入應用的主要挑戰。在使用 NVIDIA GeForce RTX 4080 Super 顯示卡的情況下,完整生成一個包含 10 張影像的族群大約需要耗時 40 到 50 秒。這種互動延遲主要來自 DDPM 龐大的迭代去噪步驟,以及在逆向過程中針對高維度雜訊序列執行儲存與插值運算的資源開銷。
為此,研究團隊指明了具體的前進方向。由於擴散交配的機制不僅限於像素空間,未來若能將此技術移植到 LDM(潛在擴散模型,如現行主流的 Stable Diffusion 架構),便能在經過大幅壓縮的潛在空間中進行雜訊插值。搭配現有的加速採樣演算法減少總去噪步數,將能顯著降低維度與運算時間,為未來的工業設計與藝術創作,提供一套具備高度響應能力的人機協作演化工具。
生成式 AI 不僅是盲目的特徵輸出機,將其內部的擴散與去噪軌跡轉化為可人為干預的演化空間,能為人類主觀美感的精確量化提供全新幾何學基礎。