(1D) Ordered Tokens Enable Efficient Test-Time Search

Zhitong Gao, Parham Rezaei, Ali Cy, Mingqiao Ye, Nataša Jovanović, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

只要將圖像改以由粗到細的 1D 有序標記處理,僅 5.3 億參數的模型便能靠搜尋算力擊敗 34 億參數巨頭。

  • 1D 有序標記具備全局語義,讓束搜索(Beam Search)的算力投資報酬率遠勝傳統 2D 網格模型。
  • 在不依賴生成模型的極端情況下,純靠驗證器在標記空間中搜尋,能達成 79% 的單物件圖像生成成功率。
  • 僅需對前 32 個標記進行相似度搜尋,無需微調網路權重,即可在零樣本條件下達成參考圖像的精確控制。

在自迴歸圖像生成的領域中,研究團隊發現只要改變標記(Token)的排列結構,就能讓一個僅有 5.3 億參數的模型,透過推論期的搜尋演算法,擊敗體積大上六倍的 34 億參數巨型模型。這項來自洛桑聯邦理工學院(EPFL)與蘋果(Apple)的最新研究證明,由粗到細的 1D 有序標記能讓生成式 AI 展現出驚人的擴展能力,甚至能在不依賴生成模型的情況下,純靠搜尋產出完整圖像。

1D 標記與傳統 2D 網格架構的根本差異

傳統的 AR(自迴歸模型,Autoregressive Model)圖像生成,多半採用 2D 網格來進行圖像的標記化(Tokenization)。這種作法假設資訊在空間中是均勻分布的,模型會按照光柵掃描(Raster-scan)的順序,從左上角一路預測到右下角。然而,這意味著最初生成的幾個標記僅代表圖像邊緣的局部像素(例如一小塊牆壁),幾乎不包含整張圖片的全局語義。

相對地,如 FlexTok 等採用 1D 有序標記(1D Ordered Tokens)的架構,則透過巢狀丟棄(Nested dropout)技術進行訓練,迫使模型將整張圖像壓縮成一維序列。在這種結構下,序列的第一個標記就包含了高度壓縮的全局語義(例如「植物」或「包包」的模糊輪廓),後續的標記才逐步補充高頻的細節特徵。

這種由粗到細(Coarse-to-fine)的層次結構,正是決定推論階段搜尋效能的關鍵。當我們引入 Verifier(驗證器,如 CLIP 這樣評估圖文相符程度的模型)時,其需要從尚未生成完畢的半成品中,判斷哪一條生成路徑最符合使用者的提示詞。1D 有序標記因為在初期就具備全局輪廓,能為驗證器提供可靠的評分依據;反之,2D 網格初期的局部資訊往往會給出誤導性的訊號。

束搜索在 1D 與 2D 標記空間的效能對決

為了驗證標記結構對 TTS(測試期擴展,Test-Time Scaling)能力的影響,研究團隊控制了資料集、模型架構與訓練算力,針對 34 億參數的 FlexTok 與嚴格對齊的 2D 網格基準模型進行交叉比對。實驗測試了三種主流搜尋演算法:Best-of-N(生成 N 個完整樣本後挑選最佳者)、束搜索(Beam Search,在生成途中不斷評估並保留 K 個最佳前綴)以及前瞻搜索(Lookahead Search)。

數據顯示,在不開啟搜尋功能時,兩種標記結構的基礎生成品質旗鼓相當。但隨著推論算力的投入,兩者在束搜索上的表現出現了戲劇性的分歧。對於 1D 有序標記而言,束搜索是最具算力經濟效益的策略,生成品質隨算力迅速攀升;然而,束搜索對 2D 網格標記卻幾乎毫無幫助,因為早期的局部像素無法提供有意義的引導。

若將對手換成市面上極具競爭力的 2D 自迴歸模型 Janus-1.3B,結論依然成立。Janus 雖然在零搜尋的基準線上略佔優勢,但在導入束搜索後,FlexTok 展現出強大的擴展曲線並成功反超。對於 2D 網格模型來說,Best-of-N 仍是唯一在固定算力預算下較為穩定的擴充選項,除非耗費極大的 NFE(函數評估次數)進行前瞻搜索,將局部畫面強行展開為完整圖片再行評分。

捨棄自迴歸先驗:純靠驗證器完成圖像生成

1D 有序標記最反直覺的潛力在於:即便沒有生成模型,單靠在標記庫中搜尋也能畫出圖片。在常規的自迴歸生成中,模型負責提供下一個標記的機率分佈(即自迴歸先驗),以此來限縮搜尋範圍。但研究團隊進行了一項極端測試,完全移除 AR 模型的先驗機率,改採均勻先驗(Uniform prior),讓演算法在擁有 64,000 個詞彙的標記庫中盲目摸索。

在這項名為「純搜尋生成(Generation-by-search)」的實驗中,演算法透過束搜索展開候選標記,解碼成圖像後交由 ImageReward 進行圖文相似度評分,不斷留下分數最高的標記序列。結果令人意外,在 GenEval 基準測試的單一物件生成任務中,這種純靠搜尋的作法居然達到了 79% 的成功率;而在難度更高的雙物件生成任務中,也具備 32% 的成功率。

這項實驗證明,1D 有序標記的潛在空間本身就具備高度的語義秩序。雖然將無條件先驗(Unconditional prior)或文字條件先驗加回搜尋流程中能進一步推升成功率,但純搜尋能產出合理圖像這一事實,凸顯了底層標記結構的優劣,直接決定了搜尋空間是否具備可導航性。

控制前 32 個標記解鎖零樣本圖像控制能力

良好的標記排序不僅提升了文字到圖像的生成品質,還解鎖了模型在零樣本(Zero-shot)情境下的精細控制能力。在未經特殊微調、僅受過圖文配對訓練的自迴歸模型上,研究人員嘗試讓模型在生成符合文字提示的同時,還要保留參考圖像中的特定視覺特徵。

團隊採用了 DreamSim 這種測量圖像與圖像相似度的驗證器,來引導模型的生成軌跡。為了提供高密度的引導,搜尋演算法被設定為只針對最初的 32 個標記進行介入。實驗在 DreamBench++ 概念保留測試集上進行,結果顯示 FlexTok 在維持文字遵循能力的同時,其 DINO-I 概念保留分數大幅提升了 +18.4

相較之下,採用 2D 網格的 Janus 即便動用了運算成本極高的前瞻搜索來展開局部標記,其 DINO-I 分數也僅微幅提升了 +5.9。這表明 1D 有序標記在序列初期就掌握了畫面的整體架構與核心概念,只需微調最初的幾十個標記,就能有效將全新的視覺控制條件注入生成過程中,無需重新訓練龐大的網路權重。

實測 8 款驗證器:人類偏好模型表現最佳

在測試期搜尋的框架中,驗證器扮演著等同於損失函數的重要角色。為了找出最適合引導圖像生成的裁判,研究團隊在 GenEval 測試集上評估了八種不同機制的驗證器,涵蓋圖文對齊(如 CLIPScore)、圖像品質(如 Aesthetic Score),以至於基於規則的物件分割模型(如 Grounded SAM)。

實驗結果確認了一個共通趨勢:只要導入任何一款驗證器,模型的基礎生成品質都會獲得提升,證明了搜尋機制的強健性。然而,若以各項指標的平均排名來看,基於人類偏好訓練的模型展現了壓倒性的優勢,其中 ImageRewardHPSv2 分別奪下了單一驗證器的最佳表現,而整合所有指標的綜合驗證器則能提供最均衡的輸出品質。

儘管搜尋擴展展現了巨大潛力,目前的架構仍存在硬體上的限制。1D 有序標記在解碼成圖像時,依賴基於流(Flow-based)的解碼器,這需要經過多次降噪步驟。在束搜索過程中,每一輪都需要反覆將半成品解碼以供驗證器評分,導致推論期的運算成本暴增。未來的研究若能改用單步解碼器或設計更具適應性的搜尋策略,測試期算力的性價比將有望迎來突破。

透過由粗到細的 1D 有序標記結構,圖像生成模型不僅能突破傳統 2D 網格的搜尋瓶頸,更將推論期擴展(Test-Time Scaling)的實質潛力從語言模型正式帶入視覺領域。

Abstract

Tokenization is a key component of autoregressive (AR) generative models, converting raw data into more manageable units for modeling. Commonly, tokens describe local information, such as regions of pixels in images or word pieces in text, and AR generation predicts these tokens in a fixed order. A worthwhile question is whether token structures affect the ability to steer the generation through test-time search, where multiple candidate generations are explored and evaluated by a verifier. Using image generation as our testbed, we hypothesize that recent 1D ordered tokenizers with coarse-to-fine structure can be more amenable to search than classical 2D grid structures. This is rooted in the fact that the intermediate states in coarse-to-fine sequences carry semantic meaning that verifiers can reliably evaluate, enabling effective steering during generation. Through controlled experiments, we find that AR models trained on coarse-to-fine ordered tokens exhibit improved test-time scaling behavior compared to grid-based counterparts. Moreover, we demonstrate that, thanks to the ordered structure, pure test-time search over token sequences (i.e., without training an AR model) can perform training-free text-to-image generation when guided by an image-text verifier. Beyond this, we systematically study how classical search algorithms (best-of-N, beam search, lookahead search) interact with different token structures, as well as the role of different verifiers and AR priors. Our results highlight the impact of token structure on inference-time scalability and provide practical guidance for test-time scaling in AR models.