UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs

Lifan Jiang, Tianrun Wu, Yuhang Pei, Chenyang Wang, Boxi Wu, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

浙江大學團隊推出 UniEditBench 統一評估框架,將千億參數裁判模型蒸餾至 4B 規模,顯存需求大幅降至 12 GB 且維持極高人類偏好對齊率。

  • 建立 9 種圖像與 8 種影片操作的精細分類學,並首度引入計數與空間重排等複雜推理任務。
  • 採用兩階段思維鏈知識蒸餾,將 Qwen3-VL-235B 教師模型的評分邏輯轉移至 4B/8B 輕量模型。
  • 透過 5 大獨立評估維度消除單一分數盲區,並將硬體顯存需求從 470.8 GB 驟降至 12 GB。

傳統視覺生成模型的評估面臨巨大的運算成本瓶頸,直接使用超大型多模態模型作為自動裁判,往往需要高達 470.8 GB 的硬體顯存。浙江大學團隊推出的 UniEditBench 打破了這個資源限制,透過兩階段知識蒸餾技術,將千億參數規模的 Qwen3-VL-235B-A22B 壓縮至 4B/8B,讓顯存需求驟降至最低 12 GB,卻依然能在涵蓋 9 種圖像與 8 種影片編輯任務中,維持與人類偏好極高的對齊率。

跨越重建與指令驅動:UniEditBench統一框架

當前視覺內容生成的發展重心,已從全圖合成轉向使用者可控的精細化編輯,但評估標準卻陷入嚴重的碎片化。現有的測試基準通常只針對特定的模型範式進行優化,例如基於重建的技術(如反演方法)與指令驅動的技術(如結構化編輯),兩者因輸入格式不同而難以進行公平的跨範式比較。此外,傳統的自動化評估指標,如 PSNR(峰值信噪比)或基於 CLIP(對比語言-圖像預訓練模型)的分數,往往無法準確反映人類真實的視覺偏好。

為了解決這些痛點,研究團隊構建了 UniEditBench,提供一套統一的評估協議。這套框架的核心在於標準化提示詞介面,透過 MLLM(大型多模態模型)檢查來源媒體語意,並產出結構化的「來源提示詞、目標提示詞、編輯指令」三元組。這種三元組設計使得不同架構的模型都能在完全相同的語意基準上進行測試。

為了確保資料來源的多樣性與高逼真度,基準資料庫進行了多管道整合。團隊不僅從現有的 PIE-Bench 中取樣,還爬取了高解析度的真實網路素材,並利用 GPT-5.4 產生提示詞後,交由 FLUXSD3Wan 以及 HunyuanVideo 等基礎生成模型合成變化版本。最終,資料庫經過嚴格的專家交叉驗證,保留了 633 張高畫質圖像與 77 段影片,共計 710 組精確對齊的提示詞三元組。

涵蓋 9 種圖像與 8 種影片的精細化編輯分類學

有別於過去的評估基準多半集中在顏色改變、風格轉換或單純的實體替換等外觀層面,UniEditBench 建立了一套極為精細的操作分類系統。在圖像編輯上,任務被劃分為 9 個獨立維度:新增、移除、替換、改變、基於筆觸的編輯、提取、調整、計數與重新排序。而為了適應時間動態特性,影片編輯則被調整為 8 個核心操作(去除了基於筆觸的編輯)。

這套分類學特別針對當前生成模型在複雜空間推理上的弱點進行了壓力測試。以「計數(Count)」任務為例,模型必須展現精準的數字與空間映射能力,在完全不改變周圍未編輯背景的前提下,精確增減指定物件的數量。這遠比單純的風格轉換需要更深層的場景理解。

另一方面,「重新排序(Reorder)」任務則考驗了物件的恆存性與複雜的空間邏輯。當主體在畫面中被要求移動至新位置時,模型必須維持場景整體的視覺合理性與光影連續性。這些進階的測試子集,直接揭露了現有模型在處理多物件關係對齊時的系統性缺陷。

制定 5 大獨立評估維度以避免傳統單一指標重疊

傳統的單一標量分數經常面臨「語意糾纏」的困境,例如局部的背景破壞可能會無意中拉低模型在指令遵循度上的得分。為了拆解這種模糊性,UniEditBench 導入了 5 大互相獨立的正交評估維度,並採用 1 到 5 分的李克特量表(Likert scale)進行精確計分。

首先是「結構保真度($S_{SF}$)」與「文本對齊度($S_{TA}$)」。前者嚴格檢驗未編輯實體的幾何形狀、姿態與空間關係是否維持原貌,直接懲罰非預期的型態變異;後者則量化模型對編輯指令的語意服從程度。此外,「背景一致性($S_{BC}$)」刻意將未編輯區域獨立出來,專門測量模型防止色彩溢出或過度編輯的能力,而「自然度($S_{NAT}$)」則完全撇除提示詞,純粹評估是否存在生成偽影或不合理的光影邊界。

針對影片領域,該框架額外加入了「時空一致性($S_{TSC}$)」維度。這個專屬指標用於嚴格審查跨幀的連貫性,針對視覺閃爍、畫面抖動或是物件運動軌跡不連續等影片生成常見的致命缺陷進行懲罰。這種解耦的評分機制大幅降低了各項指標間的干擾,為後續的錯誤分析提供了極高的解釋性。

從235B到4B規模:基於思維鏈的兩階段知識蒸餾

儘管超大型開源模型(如 Qwen3-VL-235B-A22B)作為裁判能帶來極高的人類對齊率,但其部署門檻往往需要 8 張 A100 GPU 組成的叢集,讓多數研究機構難以負荷。為了實現測試的普及化,研究團隊利用 LoRA(低秩適應微調技術)與 ms-swift 框架,將龐大教師模型的視覺推理邏輯,轉移至 Qwen3-VL-4B8B 兩個輕量級學生模型中。

為了確保學生模型學到的是推論邏輯而非盲目給分,團隊採用了思維鏈(CoT)策略。在產生偏好資料庫時,教師模型被強制要求在輸出最終的離散分數前,必須針對前述的 5 個正交維度,逐一生成詳細的語意推論過程。這種自迴歸的生成順序,確保了分數背後具備深厚的邏輯基礎。

在具體的微調過程中,團隊導入了基於課程學習的兩階段策略,以防止模型在學習時間動態時發生災難性遺忘。第一階段(空間蒸餾)專注於圖像資料庫的 3 個 epoch 訓練,鞏固結構保真與背景一致性等基礎能力;第二階段(時間蒸餾)則以前一階段的權重為起點,在影片資料庫上再進行 3 個 epoch 的微調,成功注入時空一致性的評估能力。

硬體顯存降至12 GB 且高度對齊人類偏好的測試

量化實驗涵蓋了 25 款開源圖像編輯模型與 8 款開源影片編輯模型。結果顯示,基於 MLLM 的方法在文本對齊度上具備明顯優勢,而無反演(Inversion-free)方法在保留場景佈局與結構保真度上表現出色。在影片編輯中,如 FlowEdit-Wan 等模型展現了良好的時空一致性,但整體而言,影片編輯模型之間的效能落差遠大於圖像模型,顯示該領域仍處於高度變動期。

最關鍵的硬體部署效益上,這套蒸餾框架取得了壓倒性的成功。原本的 235B 教師模型在 BF16 格式下需要約 470.8 GB 的權重儲存與高階多卡叢集,而蒸餾後的 8B 學生模型僅需 24 GB 顯存,4B 變體更只需要 12 GB 即可在單張消費級顯卡上流暢運行,且單圖推論延遲大幅縮短。

從均方誤差(MSE)數據與 50 人參與的盲測結果來看,這兩款輕量級裁判與教師模型及人類專家的評分趨勢高度吻合。其中,8B 模型在計數、提取與重新排序等高難度推理任務中展現了更精準的判斷力;而 4B 模型則在效能與運算成本之間取得了極佳的平衡,成為大規模自動化基準測試的實用利器。

將千億參數的多模態評分邏輯成功壓縮進消費級硬體中,UniEditBench 證明了高精度的自動化視覺評估,完全可以擺脫對昂貴 API 與頂級算力叢集的依賴。

Abstract

The evaluation of visual editing models remains fragmented across methods and modalities. Existing benchmarks are often tailored to specific paradigms, making fair cross-paradigm comparisons difficult, while video editing lacks reliable evaluation benchmarks. Furthermore, common automatic metrics often misalign with human preference, yet directly deploying large multimodal models (MLLMs) as evaluators incurs prohibitive computational and financial costs. We present UniEditBench, a unified benchmark for image and video editing that supports reconstruction-based and instruction-driven methods under a shared protocol. UniEditBench includes a structured taxonomy of nine image operations (Add, Remove, Replace, Change, Stroke-based, Extract, Adjust, Count, Reorder) and eight video operations, with coverage of challenging compositional tasks such as counting and spatial reordering. To enable scalable evaluation, we distill a high-capacity MLLM judge (Qwen3-VL-235B-A22B Instruct) into lightweight 4B/8B evaluators that provide multi-dimensional scoring over structural fidelity, text alignment, background consistency, naturalness, and temporal-spatial consistency (for videos). Experiments show that the distilled evaluators maintain strong agreement with human judgments and substantially reduce deployment cost relative to the teacher model. UniEditBench provides a practical and reproducible protocol for benchmarking modern visual editing methods. Our benchmark and the associated reward models are publicly available at https://github.com/wesar1/UniEditBench.