A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation

Julian Killingback, Ofer Meshi, Henry Li, Hamed Zamani, Maryam Karimzadehgan

View Original ↗
AI 導讀 technology AI 重要性 4/5

新 RAG 架構將脈絡縮至 1/10,零額外儲存空間即可維持傳統生成效能。

  • 雲端 RAG 存在隱私風險與連線延遲,難以離線處理敏感個人資料。
  • 邊緣設備記憶體與儲存空間受限,是推動裝置端 RAG 的關鍵瓶頸。
  • 單一模型整合檢索與壓縮,上下文縮減至 1/10 且零額外儲存負擔。

裝置端 AI 面臨記憶體與儲存考驗。最新 arXiv 研究提出整合檢索與壓縮的單一模型,將上下文大砍至傳統的 1/10。新技術在零額外儲存負擔下維持既有效能,為本地端處理敏感資料徹底擺脫對雲端的依賴。

傳統雲端 RAG 部署面臨的隱私與連線挑戰

傳統的 RAG(檢索增強生成,一種結合外部資料庫以提升 AI 回答準確性的技術) 系統通常依賴算力強大的遠端伺服器來執行。將運算量龐大的文件檢索與語言生成任務卸載至雲端,確實能大幅降低終端設備的硬體門檻,讓低階裝置也能享受進階的 AI 服務。然而,這種重度依賴雲端的架構同時引入了難以忽視的系統性缺點。

使用者必須將查詢指令與相關的本地端資料傳送至外部伺服器,此舉引發了對資料存取權限與資訊外洩的嚴重隱私疑慮。維持這類雲端基礎設施需要企業持續支付伺服器維護費用與龐大的資料儲存成本,而這些成本最終往往會轉嫁給終端消費者。每次查詢的網路資料往返過程也無可避免地增加了系統延遲,並且完全受制於穩定的網際網路連線狀態。一旦處於無網路的離線環境,依賴雲端的 AI 助手便會瞬間失去運作能力。對於需要頻繁查詢財務紀錄、醫療病歷或聯絡人資訊等高度敏感個人資料的應用場景而言,將所有運算留在本地端處理已成為不可妥協的安全需求。

裝置端 RAG 面臨的 KV 快取與儲存雙重瓶頸

將整個 RAG 運作流程轉移至本地端執行,是解決資料隱私與連線延遲問題的最直接途徑。要在智慧型手機或個人電腦等硬體資源受限的邊緣設備上部署完整系統,開發者必須在極其有限的隨機存取記憶體與磁碟空間之間取得微妙的平衡。提供給大型語言模型的上下文長度(Context size)直接決定了記憶體的消耗速度與推論效率。

過長的文件上下文會快速耗盡 KV cache(鍵值快取,模型在生成過程中用來暫存注意力權重的記憶體機制),並對設備的動態記憶體造成極大壓力,甚至導致系統崩潰或應用程式強制關閉。另一方面,系統為了快速且精準檢索而必須預先儲存的文件向量嵌入(Embeddings)同樣需要佔用寶貴的本地固態硬碟或快閃記憶體空間。如何在不犧牲檢索準確度與生成品質的前提下,同時壓縮上下文長度並縮減向量儲存的體積,成為推動裝置端 AI 規模化普及的關鍵技術瓶頸。

採用單一共享表徵技術整合檢索與脈絡壓縮

來自 Julian Killingback、Ofer Meshi 等人的最新研究提出了一種突破性的單一模型架構設計。有別於過去將資料檢索與文字生成視為兩個獨立運作、各自需要專屬資料表徵形式的模組,這個新架構首度將檢索任務與文件脈絡壓縮功能整合在同一個核心模型中。系統不再需要為同一份文件分別儲存用於計算相似度的高維度檢索向量,以及用於提供生成線索的完整原始文本。

透過導入共享的文件表徵機制,新模型在初次處理本地端文件時,只需生成一次高度壓縮後的特徵表示。這組濃縮後的資料不僅能直接供應給檢索階段用以比對使用者查詢的關聯性,同時也能無縫過渡至生成階段,作為去除冗餘資訊後的精煉上下文輸入。相比於傳統採用兩套獨立表徵系統的作法,這種高度整合的設計大幅減少了本地設備的磁碟寫入與讀取負載。這項技術從根本上改變了裝置端 RAG 處理外部知識資料庫的底層邏輯,讓資源受限的行動裝置也能順暢運行複雜的知識增強生成任務。

多向量檢索對比與 1/10 上下文長度效能實測

實測數據顯示,這種整合式模型在壓縮生成階段所需的上下文長度上展現了驚人的效率。該架構在平均只使用傳統 RAG 系統 1/10 上下文長度的嚴苛條件下,依然能夠精準提取出回答複雜問題所需的關鍵資訊。這意味著設備端模型在進行推論時,能夠省下高達九成的 KV 快取記憶體消耗,將原本可能需要大量記憶體才能消化的上下文,壓縮至極低的佔用量。

在實際的回答準確度與文字生成品質表現方面,這套大幅縮減了上下文長度的新架構,成功達到了與傳統吃重記憶體的 RAG 閱讀器同等級的基準分數。更值得注意的是,若與現行主流的多向量檢索模型相比,新模型在達成上述極端壓縮效果的同時,完全沒有增加任何額外的硬碟儲存空間需求。研究團隊指出,這項成果代表了學界第一個成功利用共享模型與表徵技術,將檢索模組與脈絡壓縮模組完美融合的實作案例。這種將多個龐大且功能獨立的 AI 任務整合成單一輕量化模型的設計思路,預期將啟發未來更多針對邊緣運算設備與行動裝置的底層架構最佳化研究。

整合檢索與脈絡壓縮的單一模型大幅降低硬體消耗,為離線運行個人化 AI 奠定基礎。

Abstract

Traditional Retrieval-Augmented Generation (RAG) approaches generally assume that retrieval and generation occur on powerful servers removed from the end user. While this reduces local hardware constraints, it introduces significant drawbacks: privacy concerns regarding data access, recurring maintenance and storage costs, increased latency, and the necessity of an internet connection. On-device RAG addresses these challenges by executing the entire pipeline locally, making it ideal for querying sensitive personal information such as financial documents, contact details, and medical history. However, on-device deployment necessitates a delicate balance between limited memory and disk space. Specifically, the context size provided to the generative model must be restricted to manage KV cache and attention memory usage, while the size of stored embeddings must be minimized to preserve disk space. In this work, we propose a unified model that compresses the RAG context and utilizes the same representations for retrieval. This approach minimizes disk utilization compared to using separate representations, while significantly reducing the context size required for generation. With an average of 1/10 of the context, our model matches the performance of a traditional RAG reader without increasing storage requirements compared to a multi-vector retrieval model. This approach represents the first model to unify retrieval and context compression using a shared model and representation. We believe this work will inspire further consolidation of distinct models to optimize on-device performance.