JFinTEB: Japanese Financial Text Embedding Benchmark

Masahiro Suzuki, Hiroki Sakaji

View Original ↗
AI 導讀 technology AI 重要性 3/5

JFinTEB 評測出爐:日文特化模型以 80.9 分居冠,但 OpenAI 等多語系模型差距已不到 2 分。

  • JFinTEB 補足了日文金融文本基準測試的空白,包含 11 個橫跨分類與檢索的實境任務。
  • 日文特化模型 Sarashina 以平均 80.9 分取得最佳表現,而 Ruri 310M 則是中小型模型首選。
  • 檢索任務中多款模型取得高分,反映現有嵌入技術在真實金融檢索場景中已相當成熟。

14 款嵌入模型在 11 個日文金融文本任務的最新評測出爐。JFinTEB 基準測試顯示,日文特化模型 Sarashina 雖以平均 80.9 分居冠,但 OpenAI 等多語系大模型的差距已不到 2 分,證明跨語言架構處理高度專業日本金融語料的能力已大幅提升。

JFinTEB 補足 JMTEB 與 FinMTEB 的日文缺口

文本嵌入(Text Embeddings,將文字轉換為數值向量的技術)是現代資訊檢索系統如搜尋引擎與問答架構的核心。隨著技術發展,英文領域已有 MTEB 作為統一評估標準,多語系擁有 MMTEB,而日文專屬的通用基準 JMTEB 也已發布。然而,在處理金融季報、有價證券報告等高度專業文本時,通用基準往往無法準確反映模型的真實能力。

雖然學界已針對中英文環境推出了 FinMTEB 基準,但日本身為全球重要金融市場,卻一直缺乏專屬的文本嵌入評估資源。為了解決這項痛點,研究團隊推出了首個針對日文金融領域的綜合性基準測試 JFinTEB(Japanese Financial Text Embedding Benchmark),藉此彌補現有測試工具在語言與特定領域上的雙重盲區。

日本金融文本的特性在於充斥著法規術語與制式化表達,這些詞彙極少出現在一般日文語料庫中。許多金融資訊系統需要將嵌入技術直接用於檢索、分群或零樣本分類(zero-shot classification),而傳統語言模型在這些場景中經常表現不佳。透過公開資料集與評估程式碼,JFinTEB 期望能為日文金融文本探勘(text mining)提供標準化的比較基礎。

11 個實境金融任務:從新聞分類到維基檢索

有別於刻意製造極端難題的測試框架,JFinTEB 聚焦於日本金融業真實的資訊需求,共設計了 11 個橫跨分類、檢索與分群(clustering)的穩定任務。在分類任務方面,該基準整合了多個既有資料集,例如用於情緒分析的 chABSA,以及源自日本經濟觀察家調查(Economy Watchers Survey)的領域與情緒預測任務。團隊更利用日本維基百科的企業描述,結合東京證券交易所(JPX)官方的 17 個產業分類,建構了全新的企業分類挑戰。

針對檢索任務的設計,這套基準除了納入評估金融常見問答的 JaFIn 以及多輪法規問答的 PFMT,也透過自動化程序建立了兩組新資料集。一組負責匹配維基新聞(Wikinews)的標題與內文,另一組則將維基百科上的企業名稱與其公司簡介進行精準對應。這些任務確保了測試涵蓋新聞驅動以及企業基本面等多種日文金融場景。

為了確保測試可靠性,研究團隊執行了嚴格的品質保證流程。他們使用多語系 E5、日文模型 RuriOpenAI 三個不同規模的模型家族進行交叉驗證,排除了因為樣本數過少而導致模型效能反轉的不穩定任務。經過篩選後的 11 個任務不包含訓練集,藉此保證評估結果能真實反映各模型在未見過資料上的泛化能力。

14 款嵌入模型評鑑:Sarashina 領跑日文金融

本次研究挑選了 14 款涵蓋不同架構與語言策略的代表性嵌入模型進行深度評測。日文特化陣營包含基於 ModernBERT 架構的 Ruri v3 系列、從 1.2B 參數日語大型語言模型(LLM)衍生而來的 Sarashina,以及針對日文語義優化的 GLuCoSE。多語系模型則派出了具備 8192 詞元(token)輸入長度的 Jina(jina-embeddings-v3)、Multilingual E5 系列,以及商業領域廣泛使用的 OpenAI text-embedding-3

最終數據證實,日文特化模型在整體平均分數上依然保有優勢。Sarashina80.9 分拿下平均榜首,中型規模的 Ruri 310M 也獲得 79.4 分;而多語系模型的代表 E5 largeOpenAI large 則雙雙取得 79.379.0 分。這不到兩分的微小落差,顯示頂尖多語系模型在處理日文複雜專業文本的能力正迎頭趕上。

深入觀察不同任務類別,分類任務的前段班依序為 Sarashina81.7 分)、E5 large79.7 分)與 Ruri 310M79.4 分)。但在檢索任務中,榜首位置卻由多語系的 Jina94.0 分奪下,SarashinaOpenAI large 緊追在後。值得注意的是,OpenAI 大型模型在源自經濟觀察家調查的預測任務中表現最佳,研究人員推測這可能與該調查的公開文本曾被納入其海量預訓練語料庫有關。

檢索任務分數飽和與領域適應的未來方向

檢索任務在此次評估中普遍出現了高分現象,這並非意味著測試過於簡單,而是反映出現今嵌入模型在處理真實世界常見的金融資訊比對時,技術已達到相當成熟的階段。研究團隊比較不同模型家族發現,檢索任務的效能變異數(variance)明顯高於分類任務,這表示在不需要微調的零樣本檢索情境下,更能突顯出各模型在泛化能力上的真實落差。

硬體資源規劃也與模型選擇息息相關。對於運算資源充裕的應用場景,參數超過 1BSarashina 是最佳選擇;若考量本地部署的硬體限制,參數介於 100M1B 之間的 Ruri 310M 提供了絕佳的性價比。面對資源更受限的環境,直接呼叫 OpenAI large 的 API 或部署輕量級的 Ruri 30M 將是合理的替代方案。

檢視領域適應(Domain Adaptation)的成效,經過金融語料庫額外預訓練的 FinBERT 表現明顯超越了通用的日文 BERT 模型。這項發現不僅呼應了英文與中文市場的趨勢,也為未來開發更強大的日文金融專屬模型指明了方向。隨著產業應用的深化,團隊已計畫將 JFinTEB 擴展至長篇財報分析、檢索增強生成(RAG)以及人工評估等更複雜的情境。

掌握金融專有名詞的日文特化模型仍具效能優勢,但多語系大模型已憑藉海量預訓練數據,在檢索情境中大幅縮小差距。

Abstract

We introduce JFinTEB, the first comprehensive benchmark specifically designed for evaluating Japanese financial text embeddings. Existing embedding benchmarks provide limited coverage of language-specific and domain-specific aspects found in Japanese financial texts. Our benchmark encompasses diverse task categories including retrieval and classification tasks that reflect realistic and well-defined financial text processing scenarios. The retrieval tasks leverage instruction-following datasets and financial text generation queries, while classification tasks cover sentiment analysis, document categorization, and domain-specific classification challenges derived from economic survey data. We conduct extensive evaluations across a wide range of embedding models, including Japanese-specific models of various sizes, multilingual models, and commercial embedding services. We publicly release JFinTEB datasets and evaluation framework at https://github.com/retarfi/JFinTEB to facilitate future research and provide a standardized evaluation protocol for the Japanese financial text mining community. This work addresses a critical gap in Japanese financial text processing resources and establishes a foundation for advancing domain-specific embedding research.