(1D) Ordered Tokens Enable Efficient Test-Time Search
只要將圖像改以由粗到細的 1D 有序標記處理,僅 5.3 億參數的模型便能靠搜尋算力擊敗 34 億參數巨頭。
- 1D 有序標記具備全局語義,讓束搜索(Beam Search)的算力投資報酬率遠勝傳統 2D 網格模型。
- 在不依賴生成模型的極端情況下,純靠驗證器在標記空間中搜尋,能達成 79% 的單物件圖像生成成功率。
- 僅需對前 32 個標記進行相似度搜尋,無需微調網路權重,即可在零樣本條件下達成參考圖像的精確控制。
在自迴歸圖像生成的領域中,研究團隊發現只要改變標記(Token)的排列結構,就能讓一個僅有 5.3 億參數的模型,透過推論期的搜尋演算法,擊敗體積大上六倍的 34 億參數巨型模型。這項來自洛桑聯邦理工學院(EPFL)與蘋果(Apple)的最新研究證明,由粗到細的 1D 有序標記能讓生成式 AI 展現出驚人的擴展能力,甚至能在不依賴生成模型的情況下,純靠搜尋產出完整圖像。
1D 標記與傳統 2D 網格架構的根本差異
傳統的 AR(自迴歸模型,Autoregressive Model)圖像生成,多半採用 2D 網格來進行圖像的標記化(Tokenization)。這種作法假設資訊在空間中是均勻分布的,模型會按照光柵掃描(Raster-scan)的順序,從左上角一路預測到右下角。然而,這意味著最初生成的幾個標記僅代表圖像邊緣的局部像素(例如一小塊牆壁),幾乎不包含整張圖片的全局語義。
相對地,如 FlexTok 等採用 1D 有序標記(1D Ordered Tokens)的架構,則透過巢狀丟棄(Nested dropout)技術進行訓練,迫使模型將整張圖像壓縮成一維序列。在這種結構下,序列的第一個標記就包含了高度壓縮的全局語義(例如「植物」或「包包」的模糊輪廓),後續的標記才逐步補充高頻的細節特徵。
這種由粗到細(Coarse-to-fine)的層次結構,正是決定推論階段搜尋效能的關鍵。當我們引入 Verifier(驗證器,如 CLIP 這樣評估圖文相符程度的模型)時,其需要從尚未生成完畢的半成品中,判斷哪一條生成路徑最符合使用者的提示詞。1D 有序標記因為在初期就具備全局輪廓,能為驗證器提供可靠的評分依據;反之,2D 網格初期的局部資訊往往會給出誤導性的訊號。
束搜索在 1D 與 2D 標記空間的效能對決
為了驗證標記結構對 TTS(測試期擴展,Test-Time Scaling)能力的影響,研究團隊控制了資料集、模型架構與訓練算力,針對 34 億參數的 FlexTok 與嚴格對齊的 2D 網格基準模型進行交叉比對。實驗測試了三種主流搜尋演算法:Best-of-N(生成 N 個完整樣本後挑選最佳者)、束搜索(Beam Search,在生成途中不斷評估並保留 K 個最佳前綴)以及前瞻搜索(Lookahead Search)。
數據顯示,在不開啟搜尋功能時,兩種標記結構的基礎生成品質旗鼓相當。但隨著推論算力的投入,兩者在束搜索上的表現出現了戲劇性的分歧。對於 1D 有序標記而言,束搜索是最具算力經濟效益的策略,生成品質隨算力迅速攀升;然而,束搜索對 2D 網格標記卻幾乎毫無幫助,因為早期的局部像素無法提供有意義的引導。
若將對手換成市面上極具競爭力的 2D 自迴歸模型 Janus-1.3B,結論依然成立。Janus 雖然在零搜尋的基準線上略佔優勢,但在導入束搜索後,FlexTok 展現出強大的擴展曲線並成功反超。對於 2D 網格模型來說,Best-of-N 仍是唯一在固定算力預算下較為穩定的擴充選項,除非耗費極大的 NFE(函數評估次數)進行前瞻搜索,將局部畫面強行展開為完整圖片再行評分。
捨棄自迴歸先驗:純靠驗證器完成圖像生成
1D 有序標記最反直覺的潛力在於:即便沒有生成模型,單靠在標記庫中搜尋也能畫出圖片。在常規的自迴歸生成中,模型負責提供下一個標記的機率分佈(即自迴歸先驗),以此來限縮搜尋範圍。但研究團隊進行了一項極端測試,完全移除 AR 模型的先驗機率,改採均勻先驗(Uniform prior),讓演算法在擁有 64,000 個詞彙的標記庫中盲目摸索。
在這項名為「純搜尋生成(Generation-by-search)」的實驗中,演算法透過束搜索展開候選標記,解碼成圖像後交由 ImageReward 進行圖文相似度評分,不斷留下分數最高的標記序列。結果令人意外,在 GenEval 基準測試的單一物件生成任務中,這種純靠搜尋的作法居然達到了 79% 的成功率;而在難度更高的雙物件生成任務中,也具備 32% 的成功率。
這項實驗證明,1D 有序標記的潛在空間本身就具備高度的語義秩序。雖然將無條件先驗(Unconditional prior)或文字條件先驗加回搜尋流程中能進一步推升成功率,但純搜尋能產出合理圖像這一事實,凸顯了底層標記結構的優劣,直接決定了搜尋空間是否具備可導航性。
控制前 32 個標記解鎖零樣本圖像控制能力
良好的標記排序不僅提升了文字到圖像的生成品質,還解鎖了模型在零樣本(Zero-shot)情境下的精細控制能力。在未經特殊微調、僅受過圖文配對訓練的自迴歸模型上,研究人員嘗試讓模型在生成符合文字提示的同時,還要保留參考圖像中的特定視覺特徵。
團隊採用了 DreamSim 這種測量圖像與圖像相似度的驗證器,來引導模型的生成軌跡。為了提供高密度的引導,搜尋演算法被設定為只針對最初的 32 個標記進行介入。實驗在 DreamBench++ 概念保留測試集上進行,結果顯示 FlexTok 在維持文字遵循能力的同時,其 DINO-I 概念保留分數大幅提升了 +18.4。
相較之下,採用 2D 網格的 Janus 即便動用了運算成本極高的前瞻搜索來展開局部標記,其 DINO-I 分數也僅微幅提升了 +5.9。這表明 1D 有序標記在序列初期就掌握了畫面的整體架構與核心概念,只需微調最初的幾十個標記,就能有效將全新的視覺控制條件注入生成過程中,無需重新訓練龐大的網路權重。
實測 8 款驗證器:人類偏好模型表現最佳
在測試期搜尋的框架中,驗證器扮演著等同於損失函數的重要角色。為了找出最適合引導圖像生成的裁判,研究團隊在 GenEval 測試集上評估了八種不同機制的驗證器,涵蓋圖文對齊(如 CLIPScore)、圖像品質(如 Aesthetic Score),以至於基於規則的物件分割模型(如 Grounded SAM)。
實驗結果確認了一個共通趨勢:只要導入任何一款驗證器,模型的基礎生成品質都會獲得提升,證明了搜尋機制的強健性。然而,若以各項指標的平均排名來看,基於人類偏好訓練的模型展現了壓倒性的優勢,其中 ImageReward 與 HPSv2 分別奪下了單一驗證器的最佳表現,而整合所有指標的綜合驗證器則能提供最均衡的輸出品質。
儘管搜尋擴展展現了巨大潛力,目前的架構仍存在硬體上的限制。1D 有序標記在解碼成圖像時,依賴基於流(Flow-based)的解碼器,這需要經過多次降噪步驟。在束搜索過程中,每一輪都需要反覆將半成品解碼以供驗證器評分,導致推論期的運算成本暴增。未來的研究若能改用單步解碼器或設計更具適應性的搜尋策略,測試期算力的性價比將有望迎來突破。
透過由粗到細的 1D 有序標記結構,圖像生成模型不僅能突破傳統 2D 網格的搜尋瓶頸,更將推論期擴展(Test-Time Scaling)的實質潛力從語言模型正式帶入視覺領域。