Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

Sharookh Daruwalla, Nitin Mayande, Shreeya Verma Kathuria, Nitin Joglekar, Charles Weber

View Original ↗
AI 導讀 technology AI 重要性 4/5

最新研究透過分層摘要過濾雜訊,使大型語言模型的預測一致性提升達 30%。

  • 語言模型因注意力飄移易產生預測隨機性,難以直接應用於高標準的企業商業決策。
  • 建立主題、故事與叢集三層結構,能有效過濾大量極端雜訊與無關資訊以提高精準度。
  • 實測證明透過逐步提煉的摘要做為輸入提示,模型在極端資料分佈下預測依然穩健。

大型語言模型在企業資料分析常因隨機性,導致產出的情感分數劇烈浮動。最新研究針對三大平台逾 43 萬 筆評論進行測試,證實透過分層摘要框架能有效引導模型注意力,並過濾雜訊使預測一致性提升最高達 30%

企業級情感預測面臨的語言模型隨機性難題

在現代商業環境中,基於資料驅動的決策是企業維持競爭優勢的關鍵。然而,目前在處理大規模社群媒體與市場行銷資料時,團隊往往面臨巨大的系統性壓力。這包含必須快速處理資料以免失去時效性、現代商務資料集中充斥著掩蓋核心問題的雜訊,以及要求缺乏工程背景的專家操作複雜模型所帶來的技能缺口。這三個壓力點使得企業難以直接從未經整理的龐大資料集中,萃取出具體的商業洞察。

LLM(大型語言模型,具備強大文字生成與理解能力的深度學習模型) 的機率性架構,雖然在生成創意內容上表現優異,卻與企業級分析要求高度精準且可重複輸出的標準產生了根本性衝突。這種生成多樣性主要來自於 LLM 的注意力機制,在處理相同輸入時可能會賦予不同字詞不同的權重,進而導致分析結果出現波動。在情感預測任務中,如果同一批客戶評論資料在重新執行分析後產生截然不同的分數,該結果便無法作為長期戰略投資的依據。因此,解決生成模型的不可預測性並提高分析的一致性,成為當前業界急需克服的瓶頸。

建構 SSAS 框架:制定主題與故事三層分類

為了解決模型注意力容易被雜訊干擾的缺陷,研究團隊提出了 SSAS(Syntactic & Semantic Context Assessment Summarization,語法與語義上下文評估摘要) 框架。該框架摒棄了直接將原始資料丟給 LLM 進行分析的傳統作法,改為在進行推論之前,實施嚴格的資料預處理與結構化。SSAS 結合了語法對齊(確保結構層級)與語意對齊(捕捉潛在意義),確保每一筆資料都能在宏觀敘事中找到正確的定位。

這套階層系統建構於三個維度之上,由上而下分別是 Themes(主題)Stories(故事)Clusters(叢集)。「主題」代表橫跨整個資料集的宏觀議題;「故事」確保特定次要主題在敘事上的連貫性;「叢集」則利用局部精準度來識別高度相似的個別資料點。系統會先運用由上往下推展的策略性意圖進行分類,將混亂的評論切分為易於管理的區塊。隨後再透過由下而上的資料聚合,確保高層次的洞察都有底層叢集的真實經驗證據作為基礎。

引入 SoS 摘要架構:有效抑制模型注意力飄移

在階層分類建立後,SSAS 框架引入了 Summary-of-Summaries(SoS,摘要的摘要) 架構,為大型語言模型設定明確的有界注意力環境。傳統的檢索增強生成(RAG)或遞迴式摘要方法,常會在中層聚合的過程中流失特定資料點的細微差別。相對地,SoS 架構將叢集層級的語法摘要逐層向上彙整,形成故事層級摘要,最終匯聚為主題層級的摘要,確保了各個層級之間敘事的一致性。

對於大型語言模型而言,這套經過反覆提煉的階層式摘要將作為高度具體的輸入提示詞。這種特徵工程手段強制語言模型對齊資料的核心結構與事實內容,有效避免其在長上下文視窗處理中發生模型偏離目標的隨機漂移現象。由於輸入的上下文不再是充滿變數的龐大文本,語言模型得以將有限的注意力完全聚焦於充滿情感特徵的高密度敘事上,大幅降低了受到不相關字詞干擾的風險。

排除極端值雜訊:由訊號雜訊比設定過濾門檻

維持資料完整性不僅需要結構化分類,更需要積極排除會稀釋模型焦點的雜訊與無關資訊。SSAS 框架針對每一筆資料計算訊號雜訊比(Signal-to-Noise Ratio),詳細評估其在叢集、故事與主題三個層級中的契合度。系統同時導入了加權振幅機制,根據關鍵字的出現頻率增強核心訊號,並壓抑那些雖然包含關鍵字卻缺乏上下文深度的邊緣資料點。

在執行過濾機制時,系統會先對叢集的資料量與累積訊號雜訊比進行常態化處理,並設定 0.1 作為篩選門檻。完全無法歸類到任何分類層級的資料會被標記為無關資訊並優先剔除;而存在於分類中但整體影響力低於門檻的資料,則會被視為極端值加以排除。例如在某個資料集的測試中,系統甚至判定特定的兩個主題分類全部屬於極端值而將其徹底刪除。這樣的清洗過程確保了最終呈現給語言模型的內容,都是最具代表性且情感豐富的核心評論。

亞馬遜等三大資料集實測:一致性提升達 30%

為驗證框架效能,研究團隊選擇 Gemini 2.0 Flash Lite 作為測試模型,並設定直接將原始資料餵給模型的 DIRECT(直接推論) 作為對照基準。測試資料涵蓋了超過 15.5 萬筆Amazon Product Reviews(亞馬遜產品評論)、逾 12.1 萬筆Google Business Reviews(Google 商家評論) 與高達 15.7 萬筆Goodreads Book Reviews(Goodreads 書籍評論) 等三大業界標準資料集。實驗同時設計了包含不同資料量與活躍度分佈的六種極端情境來進行壓力測試。

數據顯示,在全部資料的基礎情境下,SSAS 框架讓情感預測的一致性比 DIRECT 基準高出 22% 到 28%。這項進步主要歸功於剔除無關與極端雜訊所帶來的資料狀態優化,單是雜訊減少就貢獻了高達 25.6% 的改善幅度。此外,分析還揭露了高度集中的長尾分佈現象:亞馬遜資料集中 77.2% 的評論集中在僅 19% 的商家;Google 評論有 81.4% 來自 20.3% 的企業。即使面對這種極端不均的資料傾斜,SSAS 框架在各類情境下依然穩定維持超過 20% 的效能提升,成功將反覆無常的語言模型轉換為可靠的企業級決策工具。

預先建立分層摘要並剔除雜訊,能有效將語言模型的隨機性轉化為穩定的企業級分析基礎。

補充數據視覺化

三大商業資料集評論數量與集中度分佈
資料集名稱評論總筆數資料集中度
Amazon Product Reviews155,74577.2% 評論集中於 19% 商家
Google Business Reviews121,82681.4% 評論集中於 20.3% 商家
Goodreads Book Reviews157,40771.1% 評論集中於 26.4% 書籍

Abstract

The fundamental challenge of using Large Language Models (LLMs) for reliable, enterprise-grade analytics, such as sentiment prediction, is the conflict between the LLMs' inherent stochasticity (generative, non-deterministic nature) and the analytical requirement for consistency. The LLM inconsistency, coupled with the noisy nature of chaotic modern datasets, renders sentiment predictions too volatile for strategic business decisions. To resolve this, we present a Syntactic & Semantic Context Assessment Summarization (SSAS) framework for establishing context. Context established by SSAS functions as a sophisticated data pre-processing framework that enforces a bounded attention mechanism on LLMs. It achieves this by applying a hierarchical classification structure (Themes, Stories, Clusters) and an iterative Summary-of-Summaries (SoS) based context computation architecture. This endows the raw text with high-signal, sentiment-dense prompts, that effectively mitigate both irrelevant data and analytical variance. We empirically evaluated the efficacy of SSAS, using Gemini 2.0 Flash Lite, against a direct-LLM approach across three industry-standard datasets - Amazon Product Reviews, Google Business Reviews, Goodreads Book Reviews - and multiple robustness scenarios. Our results show that our SSAS framework is capable of significantly improving data quality, up to 30%, through a combination of noise removal and improvement in the estimation of sentiment prediction. Ultimately, consistency in our context-estimation capabilities provides a stable and reliable evidence base for decision-making.