CHOP: Chunkwise Context-Preserving Framework for RAG on Multi Documents
CHOP 為文本注入連續性標籤,將 RAG 檢索命中率推升至 90.77%。
- 固定長度截斷易打斷語意脈絡,導致多文件 RAG 頻發檢索衝突。
- 萃取特徵生成前綴標籤,為孤立文本補足缺失的上下文定錨。
- 動態決策機制可維持跨區塊語意連貫,實測命中率達 90.77%。
RAG 系統常因固定長度截斷遺失上下文。HDC LABS 提出 CHOP 框架,為文本區塊注入連續性感知標籤,將多文件檢索的 Top-1 命中率推升至 90.77%,大幅超越常規切割法的 81.28%。
RAG 多文件檢索的長度切割與上下文遺失
LLM(大型語言模型)常在特定領域遇到知識幻覺,而 RAG(檢索增強生成)是目前解決此痛點的主流方案。然而,現存 RAG 流程極度仰賴固定長度的 Chunking(文本切割)策略,這種粗暴的做法經常強行打斷上下文的指代關係。例如將「這個方法」或是「公式 3」與其所屬的具體實體或段落分離,導致零碎文本失去解釋力。
學界與業界現有的最佳化嘗試多半偏重單一面向。在查詢端,通常採用查詢改寫、產生假設性文件嵌入,或是結合關鍵字與語意的混合檢索技術;而在文件端,主流做法雖然能透過多階段評分與去除冗餘來過濾,但依然將每個切割區塊視為獨立個體,嚴重忽略了跨文件的論述依賴性與連續性。
在產品手冊、法規條文或政策指南等具備多文件特性的環境中,內容冗餘與詞彙重複率極高。當數十份高度相似文件的碎片同時擠在同一個向量資料庫時,缺乏上下文的孤立區塊會引發嚴重的檢索歧義。無關或關聯薄弱的段落若在此時被提取,將直接誤導模型的理解,大幅削弱外部知識庫應有的定錨作用。
導入 CNM 萃取器與連續性決策雙模組
為了解決跨區塊的語意斷裂與檢索衝突,HDC LABS 研究團隊設計出名為 CHOP(Chunkwise Context-Preserving Framework)的序列化處理框架。該框架完全放棄了單獨處理碎片的傳統思維,改為確保當前區塊的向量呈現能穩健建立在先前的語意軌跡上,避免文字片段淪為孤兒數據。
流程的第一階段導入了 CNM 萃取器(CNM-Extractor)。這個模組透過模型遵循嚴格的 JSON 輸出格式指令,自動從每一個獨立區塊中提取出三大核心特徵:類別(涵蓋如相機、空調等廣泛產品家族)、關鍵名詞(精準捕捉核心操作模組),以及具體型號(如特定系列專屬序號)。系統會將這組由三大元素構成的關鍵特徵,轉化為極度精簡的前綴標籤,直接插入並附加於對應的文本區塊前方,為後續的局部內容釘下明確且一致的上下文定錨點。
第二階段則無縫接軌連續性決策模組(Continuity Decision Module)。該模組扮演具備上下文判讀能力的分類器,負責並排比較相鄰的兩個文字區塊,判定後者是否仍隸屬於同一份文件的論述脈絡。若模型依據內建的決策規則判定兩者高度連續,後續區塊將自動繼承前一個區塊的 CNM 標籤;若判定出現明顯的主題轉換,系統便會阻斷繼承,重新呼叫 CNM 萃取器提取全新標籤。透過這套動態切換機制,CHOP 能在長達數萬字的複合文件中穩健維持語意連貫。
MRAMG 基準實測:命中率直達 90.77%
為了精確量化連續性保存機制對檢索品質的實際效益,實驗環節採用了專為長篇操作手冊設計的 MRAMG-Bench 基準測試集。研究團隊在資料前處理階段,特意將資料庫中原本分段表列的細碎檔案,全數拼接重建為單一的大型連續文本。此舉大幅弱化了原本具備提示作用的文件邊界線索,迫使系統的檢索機制必須更深入依賴深層上下文的連續性判斷,真實模擬企業內部文件常有的混合編排狀態。
在底層架構設計部分,所有經過不同策略切割後的文本,皆透過 OpenAI 提供的模型轉換為高達 3,072 維度的 Dense Vector(稠密向量),並搭配索引執行近似最近鄰搜尋。對照組包含了業界常見的兩種基本策略:第一種是固定長度切割的 Naive-500T(每 500 Token 切割並保留重疊緩衝);第二種則是具備動態長度調整能力的 Cosine-Chunking(將文件拆解為獨立句子,並以相似度閥值自動偵測主題邊界)。
實驗結果證明,套用前綴與動態決策的 CHOP 框架,在各項檢索指標上皆展現出壓倒性的準確度。其在最嚴苛的 Top-1 命中率一舉達到 90.77%,大幅勝過 Naive-500T 基準的 81.28% 以及 Cosine-Chunking 的 70.77%。除了評估單純是否撈中證據的命中率外,在反映正確資料排名高低的平均倒數排名,以及衡量整體排序品質的正規化折損累計增益等關鍵指標上,CHOP 也拉開了顯著領先差距,尤其在特定項目中繳出最高 +7.53% 的成長表現。
遏止生成幻覺:F1 與 ROUGE-L 穩定提升
檢索階段指標的進步,必須能無損轉化為最終文字生成品質的提升,才能證實整套系統具備產業落地價值。為此,研發團隊進一步將前述多重手冊問答子集的檢索證據,直接作為上下文背景餵入 Gemma-12B 開源大型語言模型中,藉此評估其最終生成的長文回答是否能有效遏止因資訊混亂而產生的模型幻覺。
在針對 Top-3、Top-5 與 Top-10 等不同擷取數量區間的嚴格檢視下,以 CHOP 框架提取出的段落作為輔佐資訊,其最終文字回答在精確度衡量指標 F1 分數,以及字詞順序保留相似度的 ROUGE-L 兩種核心指標上,皆帶來了 +0.0266 至 +0.0753 的穩定幅度漲幅。同時,團隊額外導入了運用預訓練模型計算深層語意等效性的 BERTScore 測試,數據也同步印證了 CHOP 大幅稀釋了無用雜訊干擾生成階段的機率。
綜觀各項運算測試結果,研究顯示當系統將單次檢索數量設定於 5 到 10 之間時整體效益最為明顯,不僅能將語言模型的理解失準率壓至最低,更取得了最理想的運算預算與回答品質平衡點。研究團隊預告,未來的技術迭代方向將朝向自適應前綴機制與動態連續性建模推進,確保系統在應對企業級即時串流數據流時,能同時兼顧頂尖的生成準確率與大規模部署的經濟成本。
確保區塊間的語境連續性,是解決多文件檢索衝突並降低 RAG 生成幻覺的關鍵。