Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits (4 minute read)

View Original ↗
AI 導讀 technology AI 重要性 4/5

PrismML 推出 1.58 位元模型 Ternary Bonsai,將 8B 參數模型壓縮至 1.75 GB,並能在 iPhone 17 上實現每秒 27 托肯生成。

  • Ternary Bonsai 採用全網路 1.58 位元三元權重架構,將記憶體佔用較常規 16 位元模型縮減 9 倍。
  • 1.75 GB 的 8B 版本平均基準測試達 75.5 分,以十分之一的體積擊敗多數同級常規大型模型。
  • 模型支援蘋果設備原生運行,在 M4 Pro 實測達每秒 82 托肯,能耗效率提升 3 至 4 倍。

PrismML 發布 1.58 位元架構 Ternary Bonsai

PrismML 發布 1.58 位元模型 Ternary Bonsai,8B 版本僅占 1.75 GB 記憶體,卻在基準測試中逼近 16 GB 常規模型的表現,並能在 iPhone 17 上達成每秒 27 個托肯的生成速度。這款專為平衡嚴苛記憶體限制與高準確度需求而設計的語言模型,延續了該團隊先前 1 位元(1-bit)Bonsai 模型的極致壓縮路線。Ternary Bonsai 將目標鎖定在技術曲線上的另一個甜蜜點:透過微幅增加模型體積,來換取推理效能的巨幅躍升。

常規的大型語言模型(LLM,Large Language Model)通常依賴 16 位元浮點數(FP16)或 8 位元進行運算。而 1.58 位元代表的是一種三元(Ternary)狀態,即每個權重僅有三個可能的值:{-1, 0, +1}。在資訊理論中,編碼三個狀態所需的位元數為 log2(3),約等於 1.58。與極致壓縮的 1 位元相比,保留「0」這個數值能讓模型過濾雜訊,大幅提升整體準確度。

全面量化:捨棄 FP16 逃生艙的三元設計

PrismML 團隊的 Ternary Bonsai 實現了真正的全網路 1.58 位元表示法。在業界過往的模型壓縮嘗試中,開發者通常會保留「逃生艙」——例如讓嵌入層(Embeddings)、注意力層(Attention layers)或最終的語言模型頭(LM head)維持在較高的運算精度以防效能崩潰。Ternary Bonsai 完全捨棄了這種妥協,將網路中所有層級統一降至 1.58 位元架構。

該架構透過分組量化(group-wise quantization)機制運作,系統將每個權重限制在 {-s, 0, +s} 的範圍內。這三個狀態利用 1.58 位元進行編碼,並且每 128 個權重共用一組 FP16 的縮放因子(scale factor)。這種設計確保模型在維持數值動態範圍的同時,整體記憶體佔用能比標準的 16 位元模型大幅縮減大約 9 倍。

1.75 GB 的 Ternary Bonsai 8B 跑分達 75.5

Ternary Bonsai 提供了 1.7B、4B 以及 8B 三種參數規模。以 8B 版本為例,其記憶體佔用僅需 1.75 GB,但在綜合基準測試中卻達到了 75.5 的平均高分。作為對比,同屬 PrismML 家族的 1-bit Bonsai 8B 模型體積為 1.15 GB,平均得分則為 70.5。數據顯示開發者只需額外付出 600MB 的記憶體空間,就能換來 5 分的顯著效能躍升。

在同等參數級別的競爭中,Ternary Bonsai 8B 展現了極高的智慧密度。除了以 16.38 GB 龐大體積佔據硬體優勢的 Qwen3 8B 之外,Ternary Bonsai 8B 擊敗了市面上所有同級別對手,而它的體積卻只有這些常規模型的十分之一。更重要的是,它在 MMLU Redux、GSM8K、HumanEval+ 以及 IFEval 等多項主流基準測試中均繳出頂尖成績,證明其能力提升是全面性的,而非僅針對單一跑分任務進行特化。

M4 Pro 與 iPhone 17 上的極致吞吐量

由於採用了極簡的三元權重設計,Ternary Bonsai 大幅降低了底層運算的複雜度,這直接反映在硬體設備的吞吐量與能源消耗表現上。透過蘋果機器學習陣列框架(MLX)的最佳化,Ternary Bonsai 系列模型已經能直接在 Mac、iPhone 與 iPad 等原生設備上全速運行。

實測數據顯示,在搭載 M4 Pro 晶片的設備上,Ternary Bonsai 8B 的生成速度高達每秒 82 個托肯(toks/sec),比起傳統 16 位元 8B 模型快上大約 5 倍;而在行動設備 iPhone 17 Pro Max 上,它也能穩定輸出每秒 27 個托肯的流暢速度。在能源效率方面,M4 Pro 運行該模型每生成一個托肯僅需 0.105 毫瓦時(mWh),iPhone 17 則為 0.132 毫瓦時。相比 16 位元全精度模型,這套架構帶來了 3 至 4 倍的能耗節省。

重塑邊緣 AI 設備的帕雷托前緣

PrismML 先前推出的 1-bit Bonsai 模型,已經在語言模型的「體積與能力」之間建立了一道全新的帕雷托前緣(Pareto frontier,指在不增加資源的情況下無法再提升效能的最佳權衡邊界)。如今 Ternary Bonsai 的問世,進一步將這條前緣線向更小體積、更高能力的方向推進。

這家由加州理工學院(Caltech)研究人員組成,並獲得 Khosla Ventures 與 Google 投資的企業強調,Ternary Bonsai 的定位並非取代 1 位元模型。對於資源受到極限壓縮的環境,1 位元依然是首選;但如果能稍微增加記憶體餘裕,Ternary Bonsai 將提供更強大的推理表現。目前,該系列模型權重已於 Hugging Face 平台上以 Apache 2.0 授權開源釋出,為開發人員提供了高度靈活的本地部署選項。

1.58 位元三元量化技術將 8B 級別的大型模型壓縮至 1.75 GB,正式宣告高階推論能力能在多數消費級智慧型手機上以極低能耗流暢運行。

Abstract

Ternary Bonsai is a 1.58-bit language model family offering improved performance with minimal memory usage. It outperforms 1-bit counterparts, scoring 75.5 on average benchmarks and achieving 3-4x better energy efficiency. The models, available in 8B, 4B, and 1.7B versions, provide flexible deployment across devices like Macs and iPhones under the Apache 2.0 License.