Optimizing Korean-Centric LLMs via Token Pruning

Hoyeol Kim, Hyeonwoo Kim

View Original ↗
AI 導讀 technology AI 重要性 4/5

透過字典剪枝技術將模型詞彙量縮減 36%,Llama-3.1-8B 翻譯表現不僅顯著提升,更大幅降低記憶體負擔。

  • 詞彙剪枝能將不相關的語言標記剝離,有效提升機器翻譯品質並消除多語言混淆現象。
  • 針對 Qwen3 的測試顯示,保留中文詞彙(EnKoZh)對於維持其複雜邏輯推理能力至關重要。
  • 雖然剪枝將字典體積縮減 36%,但推理延遲僅改善 0.89%,顯示其核心價值在於節省記憶體。

透過刪減不需要的語言詞彙,開源語言模型的字典大小可減少高達 36%,且在韓語到英語的機器翻譯評測中,Llama-3.1-8B-Inst 的分數從 0.5879 顯著提升至 0.6342。面對多語言語言模型帶來的記憶體負擔與語言混淆問題,詞彙剪枝(Token Pruning)成為一種極具潛力的模型壓縮技術。這項針對 Qwen3Gemma-3Llama-3 系列的最新基準測試表明,剝離不相關的語言不僅無損基礎推理能力,更能大幅提升生成的一致性,為資源受限的本地化部署提供有效路徑。

擺脫多語言詛咒與 Token 剪枝的三階段過濾

近期的巨型語言模型如 LLaMA-3、Qwen 與 Gemma 依賴龐大的多語言語料庫來達成通用性,卻也帶來了明顯的「多語言詛咒(Curse of multilinguality)」。對於僅需單語或雙語的特定應用情境,例如以韓語為核心的數位服務,模型中極大比例的參數被分配給完全用不到的語言。這不僅造成了不必要的記憶體開銷,也降低了整體的運算效率。雖然韓語屬於高資源語言,但在以英文或中文為主導的訓練資料中,往往只佔一小部分,這不但容易稀釋特定文化的細微差異,也使得終端部署的輕量化需求面臨挑戰。

研究團隊提出了一種「具備語言意識的過濾」策略,透過三個階段來執行 Token 剪枝(Token Pruning,一種藉由刪除特定語言詞彙來壓縮模型的方法)。首先,利用 Unicode 區塊範圍與字體屬性(包含韓文、拉丁文、漢字)對所有詞彙進行明確分類。接著,系統會直接剔除與目標設定不符的詞彙,並將保留下來的 Token 重新對應到連續的索引空間。最後,在物理層面上重新排列嵌入矩陣與輸出投影層的權重,以對齊全新的索引。這種作法完全保留了內部的 Transformer 區塊與位置編碼,確保模型原有的序列建模能力不受任何影響。

涵蓋 Qwen3 與 Llama-3 的三種字典組態設定

為了精準評估詞彙壓縮技術在真實世界造成的影響,這項研究挑選了多款主流的開源多語言模型,包含參數量從 0.6B 到 14B 的 Qwen3 系列、270M 到 12B 的 Gemma-3,以及 Llama-3 家族(包含 3.1-8B 與 3.2-3B)。除此之外,團隊也將 Tri、Ministral-8B 以及 Aya-23 列入測試範圍。為了進行對照,每一款模型都經過了三種不同字典組態的處理。

第一種是保留完整多語言字典的「原始組態(Original)」。第二種是經歷深度壓縮,僅保留英文與韓文字元的「EnKo」組態。第三種則是同時保留英文、韓文與中文字元的「EnKoZh」組態。評測機制涵蓋了四大韓語核心基準:透過 KMMLU 測試一般知識與邏輯推理能力,利用 HAERAE 與 CLIcK 評估當地文化素養與語言細微差別,並藉由 LogicKor 與 KoMTBench 測量遵循指令及滿足限制條件的能力。最後,團隊使用 WMT 24++ 基準,並透過 XCOMET-XXL 工具來針對機器的翻譯效能進行嚴格打分。

翻譯效能大增與 KMMLU 基準測量下的極限穩定性

機器翻譯的測試結果為詞彙剪枝的有效性提供了最強烈且客觀的證據。在 WMT 24++ 的韓英雙向基準中,經過剪枝的模型表現穩定追平,甚至大幅超越了未經修改的基準版本。其中 Llama-3.1-8B-Inst 的表現從 0.5879 攀升至 0.6342,而 Aya-expanse-8b 的分數也從 0.6957 顯著進步到 0.7496。排除多餘的語言標記能有效正規化模型的輸出分佈,將偏離目標語言的幻覺現象降至最低,進而顯著強化英韓翻譯路徑的準確度。

在探討基礎語言掌握度與文化知識的 KMMLU 測試中,數據顯示剪枝後的模型幾乎沒有出現效能衰退的跡象。Qwen3 系列在不同組態間的分數波動均小於 0.01,而 Gemma-3-12b-it 展現出微幅的語言能力提升(由 0.6311 升至 0.6321)。這證明了剪枝技術能在不破壞語義推理結構的前提下,成功清除冗餘的詞彙。此外,參數量較小的 Llama-3.2-3B-Inst 在剪枝後準確率也微幅增加,暗示著透過限縮字典的搜尋空間,能有效降低小模型在生成文字時的雜訊干擾。

Qwen3 的中文依賴與 WPR 指標下的語言生成一致性

在複雜指令遵循的表現上,模型的基礎架構與剪枝深度展現出高度的交互影響。對於 Qwen3 家族而言,保留中文詞彙的 EnKoZh 組態持續優於規則更嚴格的 EnKo 設定。以 Qwen3-4B 為例,其在 LogicKor 測試中(EnKoZh 組態)拿下 7.85 分,超越了原始設定的 7.77 分。這項數據指出,大量依賴中文語料進行預訓練的模型,在執行複雜推理時,仍高度仰賴潛在的跨語言對齊結構。相對地,較大型的 Llama-3.1-8B-Inst 則在僅限英韓的 EnKo 設定下表現更好(分數由 5.36 升至 5.57),這意味著對特定大型模型而言,大幅縮減字典反而有助於集中處理指令的焦點。

團隊另外運用詞級通過率(WPR)來評估文字生成時的穩定性。結果顯示,EnKo 設定能大幅改善多語言模型常見的語言混淆問題。原本穩定度最低的 Qwen3-4B(基準值為 0.8882)展現了最顯著的修復效果,WPR 提升了 0.1041。即便是原本穩定度就極高的 Qwen3-0.6B,在剪枝後也達成了超過 0.999 的近乎完美一致性。而在運算延遲的測試中,團隊使用 Seed-X-PPO-7B 模型進行檢驗,發現儘管 EnKo 組態使字典大小減少了 36%,推理延遲卻僅微幅改善 0.89%。這項對比證實,剪枝雖然成功解除了嵌入層帶來的龐大記憶體負擔,但並未顯著改變注意力機制所造成的運算瓶頸。

詞彙剪枝透過消弭語言混淆與縮減字典體積,在無損核心推理能力的前提下優化了在地化模型的記憶體佔用,成為單語或雙語專用模型部署的關鍵壓縮策略。

補充數據視覺化

WMT 24++ 機器翻譯 XCOMET-XXL 分數比較

Abstract

This paper presents a systematic benchmark of state-of-the-art multilingual large language models (LLMs) adapted via token pruning - a compression technique that eliminates tokens and embedding parameters corresponding to languages irrelevant to the target application. Focusing on Korean-centric natural language processing (NLP) tasks, we evaluate architectures including Qwen3, Gemma-3, Llama-3, and Aya across three vocabulary configurations: Original, English-Korean (EnKo), and English-Korean-Chinese (EnKoZh). Performance is assessed using established benchmarks for general aptitude, cultural literacy, instruction following, and machine translation. Our findings indicate that token pruning significantly improves generation stability by eliminating language confusion, and in the case of machine translation, frequently enhances performance on Korean-specific tasks. While instruction-following capabilities display architecture-dependent variance linked to latent cross-lingual representations, the significant reduction in vocabulary size validates token pruning as a highly effective optimization strategy for memory-constrained, domain-specific deployments, despite modest gains in inference latency.