Towards Design Compositing
免訓練圖像合成模組 GIST 解決排版視覺衝突,在 GPT-4V 設計盲測中取得高達 71.43% 勝率。
- GIST 模組免訓練且隨插即用,能無縫接軌並強化現有的自動排版管線。
- 透過注意力機制注入特徵,能統一風格並保留原圖身分。
- 搭配潛在初始化技術還原背景,在 GPT-4V 盲測獲高勝率。
現代平面設計往往面臨一個現實困境:當來自不同來源的圖片、商標和文字拼湊在一起時,常會因為光影和色調的差異而顯得格格不入。卡內基梅隆大學與 Adobe Research 團隊在最新的研究中發現,超過 40.3% 的自動化排版可以透過影像合成模組獲得顯著改善。他們開發出名為 GIST 的免訓練圖像合成技術,能讓多模態模型在不破壞原圖特徵的前提下,將各種素材自然融合,甚至在 GPT-4V 的設計盲測中取得了 71.43% 的高勝率。
突破現有排版預測模型的元件拼貼限制
目前業界在自動化平面設計領域(Components-to-Design)已取得不少進展,例如 LaDeCo 與 Design-o-meter 等模型在預測版面佈局(Layout)方面表現優異;而 COLE 等工具則擅長生成合適的字體與排版(Typography)。然而,這些技術多半將使用者提供的素材視為「不可變動的靜態物件」,假設這些圖片或商標在視覺上已經非常協調。
實務上,設計師收集的素材往往具備截然不同的色彩配置、渲染風格與紋理。如果只是僵硬地將它們複製貼上到畫布中,會讓最終成品充滿斷層感與違和感。另一方面,若完全交由生成式 AI 重繪整個畫面,雖然風格統一了,卻會徹底破壞使用者原本想保留的品牌商標或特定人物的身分特徵(Identity)。
為了解決這個斷層,團隊提出了 GIST(Grounded Identity-preserving Stylized composiTion)。它不介入排版位置的決定,也不負責文字的生成,而是專職擔任兩者之間的「影像合成器」。只要提供預測好的版面位置,GIST 就能對現有素材進行風格化與邊緣融合,成為一個能無縫嵌入任何設計管線的隨插即用(Plug-and-play)模組。
拆解 Emu-2 架構的 64 個特徵 Token
要讓 AI 在融合背景時不吃掉原本的圖片特徵,研究團隊選用了大型多模態模型(MLLM)Emu-2 作為底層架構。Emu-2 的獨特之處在於,它的 LLaMA 解碼器與 SDXL(Stable Diffusion XL)渲染器之間存在一個極為關鍵的 64 個 Token 傳輸瓶頸。
團隊發現這 64 個 Token 掌控了生成影像的特徵。為此,他們提出了一套名為「交叉注意力引導的 Token 注入(Cross-Attention Guided Token Injection)」的免訓練強化手法。系統會先將原始前景圖片通過視覺編碼器(EVA-CLIP)提取出保留絕對特徵的身份 Token 集合;同時讓 LLaMA 模型根據整體設計提示詞生成帶有風格化意圖的 Token 集合。
接下來,系統會利用 SDXL 的交叉注意力地圖(Cross-Attention Maps),精準計算出哪些 Token 負責渲染前景、哪些負責背景。在不干擾整體風格的前提下,系統會將前景關聯度最高的前幾個 Token 替換為原始身份 Token(比重設定為 0.3)。這樣一來,背景的風格化指令得以保留,而前景的人物或商標也能精準還原。
利用潛在初始化確保畫布背景不失真
除了前景素材的還原,圖像合成的另一大挑戰在於如何保持畫布背景的穩定性。如果直接讓擴散模型從純雜訊開始生成,背景往往會被大幅改寫,失去原始設計的樣貌。
為了解決這個問題,GIST 導入了潛在初始化(Latent Initialization)技術。系統並非從零開始生成,而是先將目前的畫布背景透過 VQ-VAE 編碼器轉換為潛在表示,接著利用與 Emu-2 訓練時相同的流匹配歐拉離散排程器(Flow Matched Euler Discrete Scheduler)進行部分加噪。
這種做法能保留比傳統 DDIM 或 LCM 逆變換更多的結構資訊。當 SDXL 從這個帶有原始結構的半雜訊狀態開始降噪時,它會自然地將新加入的前景素材與背景進行邊緣融合與光影調和。為了處理多個圖層的疊加,GIST 會依照排版模型預測的順序,逐一將視覺元件合成到畫布上,確保後來加入的元素能完美適應先前建立的光影與風格基礎。
在 Crello 資料集取得 71.43% 的偏好勝率
為了驗證 GIST 的實用性,研究團隊使用了包含 1,500 個真實圖層元數據的 Crello 設計資料集進行測試。在與主流的 LaDeCo 模型直接對比時,加入 GIST 模組的設計在「圖形與圖像(Graphics & Imagery)」指標上從 7.74 分提升至 7.83 分,且完全沒有降低內容的相關度。
在另一個更嚴苛的測試環境中,團隊結合了 Design-o-meter 排版工具與自訓練的字體模組,並將整體管線與基於生成式排版的 OpenCOLE++ 進行全方位對決。結果顯示,GIST 管線不僅在五個評價維度全面勝出,在 GPT-4V 的配對盲測中,更獲得高達 71.43% 的人類視覺偏好勝率。
針對單一物件的特徵保留能力測試,數據同樣驚人。在人類臉孔生成的受控測試中,使用原生 Emu-2 的餘弦相似度(Cosine Similarity)僅為 0.279,而導入 GIST 介入技術後,相似度大幅翻倍至 0.540。這證明了不需經過耗時的微調,僅靠演算法層面的結構干預,就能讓基礎模型同時勝任高度風格化與精準特徵保留的任務。
在不破壞使用者既有資產的前提下,透過注意力機制的介入達成視覺風格統一,將是下一代自動化設計工具的標配。