免訓練圖像合成模組 GIST 解決排版視覺衝突，在 GPT-4V 設計盲測中取得高達 71.43% 勝率。

AI 導讀 technology AI 重要性 4/5

GIST 模組免訓練且隨插即用，能無縫接軌並強化現有的自動排版管線。
透過注意力機制注入特徵，能統一風格並保留原圖身分。
搭配潛在初始化技術還原背景，在 GPT-4V 盲測獲高勝率。

現代平面設計往往面臨一個現實困境：當來自不同來源的圖片、商標和文字拼湊在一起時，常會因為光影和色調的差異而顯得格格不入。卡內基梅隆大學與 Adobe Research 團隊在最新的研究中發現，超過 40.3% 的自動化排版可以透過影像合成模組獲得顯著改善。他們開發出名為 GIST 的免訓練圖像合成技術，能讓多模態模型在不破壞原圖特徵的前提下，將各種素材自然融合，甚至在 GPT-4V 的設計盲測中取得了 71.43% 的高勝率。

突破現有排版預測模型的元件拼貼限制

目前業界在自動化平面設計領域（Components-to-Design）已取得不少進展，例如 LaDeCo 與 Design-o-meter 等模型在預測版面佈局（Layout）方面表現優異；而 COLE 等工具則擅長生成合適的字體與排版（Typography）。然而，這些技術多半將使用者提供的素材視為「不可變動的靜態物件」，假設這些圖片或商標在視覺上已經非常協調。

實務上，設計師收集的素材往往具備截然不同的色彩配置、渲染風格與紋理。如果只是僵硬地將它們複製貼上到畫布中，會讓最終成品充滿斷層感與違和感。另一方面，若完全交由生成式 AI 重繪整個畫面，雖然風格統一了，卻會徹底破壞使用者原本想保留的品牌商標或特定人物的身分特徵（Identity）。

為了解決這個斷層，團隊提出了 GIST（Grounded Identity-preserving Stylized composiTion）。它不介入排版位置的決定，也不負責文字的生成，而是專職擔任兩者之間的「影像合成器」。只要提供預測好的版面位置，GIST 就能對現有素材進行風格化與邊緣融合，成為一個能無縫嵌入任何設計管線的隨插即用（Plug-and-play）模組。

拆解 Emu-2 架構的 64 個特徵 Token

要讓 AI 在融合背景時不吃掉原本的圖片特徵，研究團隊選用了大型多模態模型（MLLM）Emu-2 作為底層架構。Emu-2 的獨特之處在於，它的 LLaMA 解碼器與 SDXL（Stable Diffusion XL）渲染器之間存在一個極為關鍵的 64 個 Token 傳輸瓶頸。

團隊發現這 64 個 Token 掌控了生成影像的特徵。為此，他們提出了一套名為「交叉注意力引導的 Token 注入（Cross-Attention Guided Token Injection）」的免訓練強化手法。系統會先將原始前景圖片通過視覺編碼器（EVA-CLIP）提取出保留絕對特徵的身份 Token 集合；同時讓 LLaMA 模型根據整體設計提示詞生成帶有風格化意圖的 Token 集合。

接下來，系統會利用 SDXL 的交叉注意力地圖（Cross-Attention Maps），精準計算出哪些 Token 負責渲染前景、哪些負責背景。在不干擾整體風格的前提下，系統會將前景關聯度最高的前幾個 Token 替換為原始身份 Token（比重設定為 0.3）。這樣一來，背景的風格化指令得以保留，而前景的人物或商標也能精準還原。

利用潛在初始化確保畫布背景不失真

除了前景素材的還原，圖像合成的另一大挑戰在於如何保持畫布背景的穩定性。如果直接讓擴散模型從純雜訊開始生成，背景往往會被大幅改寫，失去原始設計的樣貌。

為了解決這個問題，GIST 導入了潛在初始化（Latent Initialization）技術。系統並非從零開始生成，而是先將目前的畫布背景透過 VQ-VAE 編碼器轉換為潛在表示，接著利用與 Emu-2 訓練時相同的流匹配歐拉離散排程器（Flow Matched Euler Discrete Scheduler）進行部分加噪。

這種做法能保留比傳統 DDIM 或 LCM 逆變換更多的結構資訊。當 SDXL 從這個帶有原始結構的半雜訊狀態開始降噪時，它會自然地將新加入的前景素材與背景進行邊緣融合與光影調和。為了處理多個圖層的疊加，GIST 會依照排版模型預測的順序，逐一將視覺元件合成到畫布上，確保後來加入的元素能完美適應先前建立的光影與風格基礎。

在 Crello 資料集取得 71.43% 的偏好勝率

為了驗證 GIST 的實用性，研究團隊使用了包含 1,500 個真實圖層元數據的 Crello 設計資料集進行測試。在與主流的 LaDeCo 模型直接對比時，加入 GIST 模組的設計在「圖形與圖像（Graphics & Imagery）」指標上從 7.74 分提升至 7.83 分，且完全沒有降低內容的相關度。

在另一個更嚴苛的測試環境中，團隊結合了 Design-o-meter 排版工具與自訓練的字體模組，並將整體管線與基於生成式排版的 OpenCOLE++ 進行全方位對決。結果顯示，GIST 管線不僅在五個評價維度全面勝出，在 GPT-4V 的配對盲測中，更獲得高達 71.43% 的人類視覺偏好勝率。

針對單一物件的特徵保留能力測試，數據同樣驚人。在人類臉孔生成的受控測試中，使用原生 Emu-2 的餘弦相似度（Cosine Similarity）僅為 0.279，而導入 GIST 介入技術後，相似度大幅翻倍至 0.540。這證明了不需經過耗時的微調，僅靠演算法層面的結構干預，就能讓基礎模型同時勝任高度風格化與精準特徵保留的任務。

在不破壞使用者既有資產的前提下，透過注意力機制的介入達成視覺風格統一，將是下一代自動化設計工具的標配。

Abstract

Graphic design creation involves harmoniously assembling multimodal components such as images, text, logos, and other visual assets collected from diverse sources, into a visually-appealing and cohesive design. Recent methods have largely focused on layout prediction or complementary element generation, while retaining input elements exactly, implicitly assuming that provided components are already stylistically harmonious. In practice, inputs often come from disparate sources and exhibit visual mismatch, making this assumption limiting. We argue that identity-preserving stylization and compositing of input elements is a critical missing ingredient for truly harmonized components-to-design pipelines. To this end, we propose GIST, a training-free, identity-preserving image compositor that sits between layout prediction and typography generation, and can be plugged into any existing components-to-design or design-refining pipeline without modification. We demonstrate this by integrating GIST with two substantially different existing methods, LaDeCo and Design-o-meter. GIST shows significant improvements in visual harmony and aesthetic quality across both pipelines, as validated by LLaVA-OV and GPT-4V on aspect-wise ratings and pairwise preference over naive pasting. Project Page: abhinav-mahajan10.github.io/GIST/.

Towards Design Compositing

突破現有排版預測模型的元件拼貼限制

拆解 Emu-2 架構的 64 個特徵 Token

利用潛在初始化確保畫布背景不失真

在 Crello 資料集取得 71.43% 的偏好勝率

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。