How TabPFN Leverages In-Context Learning to Achieve Superior Accuracy on Tabular Datasets Compared to Random Forest and CatBoost

Arham Islam

View Original ↗
AI 導讀 technology AI 重要性 4/5

TabPFN 基礎模型透過上下文學習,在 5,000 筆樣本分類中以 98.8% 準確率擊敗 CatBoost,僅需 0.47 秒即可完成擬合。

  • TabPFN 利用數百萬個合成任務進行預訓練,免除了傳統單一資料集特徵學習的繁雜程序。
  • 在 5,000 筆合成樣本的測試中,TabPFN 取得 98.8% 準確率,超越 CatBoost 的 96.7%。
  • 其擬合過程僅耗 0.47 秒,但將運算成本轉移至預測期,導致推論需時 2.21 秒。

處理結構化表格資料(Tabular data)時,決策樹模型長期佔據主流地位。然而,近期一項針對 5,000 筆樣本的分類測試顯示,基於上下文學習架構的 TabPFN 基礎模型完全略過傳統的資料集訓練過程,僅花費 0.47 秒就完成模型擬合,並以 98.8% 的準確率擊敗了主流的 CatBoost 與隨機森林(Random Forest)。這項測試展示了將機器學習重心從訓練期轉移到推論期的新穎運算策略。

TabPFN 如何突破深度學習的結構化表格限制

回顧真實世界的機器學習應用,從財務交易記錄到醫療數據庫,由行與列構成的結構化表格資料一直是核心命題。在過去的技術發展中,基於決策樹的模型如隨機森林、XGBoost 以及 CatBoost 成為了處理此類任務的預設標準。它們的優勢在於能夠輕鬆應對混合型數據、捕捉複雜的特徵交互作用,並且在不需要大量預先處理的情況下提供強大的預測效能。

相較之下,深度學習雖然在電腦視覺與自然語言處理領域帶來了顛覆性的變革,但要在表格數據上穩定超越上述的樹狀架構卻始終面臨困難。TabPFN 的出現試圖挑戰這個長期存在的趨勢,它被定位為一種表格基礎模型(tabular foundation model),不走為每個特定資料集重新訓練模型的老路。

開發團隊利用因果推論過程生成了數百萬個合成表格任務,並讓模型在這些任務上進行預訓練。這套預訓練機制賦予了它解決監督式學習問題的通用策略,本質上是對表格數據套用了上下文學習(In-context learning,指模型不更新內部權重,直接依照輸入範例產生預測),運作邏輯與大型語言模型處理文字序列的方式高度相似。

包含 5000 筆合成資料的分類基準測試設定

為了驗證新興基礎模型與傳統樹狀架構的實際差異,本次測試透過 scikit-learn 函式庫中的 make_classification 模組,建立了一個標準的合成二元分類資料集。資料集總共包含 5,000 筆樣本與 20 個特徵欄位,其中 10 個為具備預測價值的資訊特徵,另外 5 個則是從這些資訊特徵衍生而來的冗餘特徵。

採用這種配置比例的目的,在於精準模擬真實業務場景中常見的數據特徵。因為在企業實際運作的數據庫裡,並非所有的變數欄位都具備相同的預測價值,有許多欄位往往會引入無效雜訊或是呈現高度相關的冗餘資訊。

生成的資料隨後被標準化地分割為 80% 的訓練集與 20% 的測試集,用以客觀評估各模型在面對未知數據時的泛化能力。採用合成資料集的作法能讓測試團隊完全掌控底層數據的分佈特徵,進而確保後續的演算法比較能在公平且可重複驗證的環境下進行。

隨機森林與 CatBoost 兩大模型的推論表現

基準測試首先導入了由 200 棵決策樹組成的隨機森林分類器作為強而有力的對照組。作為業界公認穩健的整合方法,隨機森林透過建立多棵獨立的決策樹並匯總最終預測結果,通常不需要繁雜的超參數調整就能提供可靠的基準表現。

完成資料集訓練後,隨機森林取得了 95.5% 的準確率,考慮到合成數據中包含雜訊,這已經是非常扎實的成績。在硬體耗時方面,訓練過程總共花費了 9.56 秒,反映出建立數百棵決策樹所需的運算成本;而在推論階段,因為只需將資料傳遞過已經建構好的樹狀結構,預測時間僅需 0.0627 秒

緊接著登場的是專門針對表格數據優化的梯度提升模型 CatBoost。這種演算法採用循序漸進的建樹方式,每一棵新生成的樹都會針對前一棵樹的預測誤差進行修正。在設定為 500 次提升迭代的條件下,CatBoost 成功交出了 96.7% 的準確率,超越了隨機森林並展示出其對複雜數據模式的掌握能力。即便迭代次數極高,它的訓練時間也僅需 8.15 秒,而推論速度更達到了驚人的 0.0119 秒,極其適合對低延遲有嚴格要求的生產環境。

零微調達成 98.8% 準確率的 TabPFN 架構

測試的最終階段切換至核心對象 TabPFN,其運作邏輯徹底顛覆了傳統機器學習的資源分配模式。當執行模型的 .fit() 擬合指令時,系統實際上的工作僅僅是載入預先訓練好的權重檔案,完全沒有針對眼前的資料集進行任何從頭開始的反覆學習。

憑藉著先前在數百萬個合成任務中累積的通用策略,TabPFN 最終奪下了 98.8% 的最高準確率,在沒有任何人工微調的情況下擊退了兩大傳統強權。令人驚艷的數據出現在它的擬合時間上,因為免除了訓練循環,整個載入過程僅耗費 0.47 秒,展現了無與倫比的啟動效率。

享受極致擬合速度的同時,使用者也必須承擔運算架構轉換所帶來的代價。TabPFN 的預測推論時間長達 2.21 秒,遠遠落後於傳統的樹狀對照模型。其根本原因在於該模型在進行預測時,必須將原本的訓練數據與新的測試數據共同輸入網絡進行聯合處理,這等同於將傳統模型耗時的「學習」階段直接搬到了推論期來執行。

導入模型蒸餾技術解決 TabPFN 的推論延遲

綜合實驗數據可以發現,TabPFN 將機器學習的訓練負擔轉換成了高度彈性、以推論為核心的新模式。對於需要快速概念驗證、頻繁實驗,或是處理中小型表格任務的開發團隊來說,這種開箱即用且準確率極高的特性具備無可取代的商業價值。

針對生產環境中經常面臨的低延遲預測挑戰,最新的 TabPFN-2.5 版本與官方開發團隊也提出了具體的應對方案。透過導入模型蒸餾技術(distillation approach),開發者現在可以將 TabPFN 龐大的預測邏輯,壓縮並轉換為規模較小的神經網路或是樹狀整合模型。

經過蒸餾處理後的微型模型不僅能夠保留絕大部分的原始高準確率,更能將那 2.21 秒的推論延遲大幅縮減至可支援即時服務的標準。隨著技術持續擴充至支援上百萬列規模的資料集,這種免訓練的新一代基礎模型,正逐步為企業級資料科學應用提供更具彈性的技術選項。

面對龐雜的表格數據,TabPFN 證明了將運算成本從「事前訓練」轉移至「即時推論」,能在無須微調的條件下解鎖頂級的預測準確率。

Abstract

Tabular data—structured information stored in rows and columns—is at the heart of most real-world machine learning problems, from healthcare records to financial transactions. Over the years, models based on decision trees, such as Random Forest, XGBoost, and CatBoost, have become the default choice for these tasks. Their strength lies in handling mixed data types, capturing […] The post How TabPFN Leverages In-Context Learning to Achieve Superior Accuracy on Tabular Datasets Compared to Random Forest and CatBoost appeared first on MarkTechPost.