Chaotic CNN for Limited Data Image Classification

Anusree M, Akhila Henry, Pramod P Nair

View Original ↗
AI 導讀 technology AI 重要性 4/5

在無需新增任何參數的情況下,透過導入混沌映射重塑特徵空間,可讓 CNN 在極端少量的訓練樣本下實現高達 9.11% 的準確率提升。

  • 混沌映射如 Logistic、Skew tent 能對歸一化特徵施加非線性擾動,有效擴充特徵多樣性。
  • 在每類 50 樣本的 Fashion-MNIST 測試中,Sine 映射結合 3 層 CNN 使分類表現大幅提升 9.11%。
  • 此架構不增加模型複雜度與運算成本,為數據受限的影像辨識場景提供輕量化的防過擬合解方。

在僅有每類別 40 個訓練樣本的極端資料限制下,傳統卷積神經網路的分類準確率往往大幅下滑。近期一項研究指出,若在網路架構中植入不具額外可訓練參數的混沌映射層,可讓 MNIST 影像的分類表現最高提升 5.43%,在 Fashion-MNIST 上甚至繳出 9.11% 的成長,為小樣本學習開闢了一條輕量且高效的途徑。

解決小樣本過擬合,從非線性混沌映射切入

深度學習模型高度仰賴龐大的標註資料集,但在實際應用中,大規模標註往往曠日費時且成本高昂。當訓練數據稀缺時,傳統的 CNN(卷積神經網路) 容易陷入 overfitting(過擬合)的困境,只記住訓練樣本的表象,而無法學習到具備泛化能力的深層特徵。現行的資料擴增、正則化與遷移學習等應對手法,都有各自的侷限,例如擴增可能無法涵蓋真實變異,正則化則會削弱模型本身的容量。

為了解決此問題,印度 Amrita Vishwa Vidyapeetham 大學的研究團隊從非線性動態系統中汲取靈感,提出了將 Chaos theory(混沌理論) 整合至神經網路特徵空間的創新架構。混沌系統具有強烈的非線性特徵、有界性以及對初始條件的極度敏感性。這些特性可為模型帶來可控的擾動,幫助模型在受限的特徵空間中探索更複雜的邊界,進而提升學習系統的特徵表示多樣性與類別可分性,且無須設計過於龐雜的網路結構。

Logistic與Skew Tent映射的特徵轉換機制

本研究的改造方法極度精簡:不更動 CNN 前端的卷積與池化層,而是在特徵向量進入最終的全連接分類層之前,插入一道混沌轉換程序。網路首先透過卷積層萃取空間與結構特徵,接著將這些特徵向量 Normalize(歸一化,將數值縮放至指定範圍)至 [0,1] 的區間,確保數值符合混沌映射的輸入範圍限制。

隨後,模型對這些特徵進行逐元素的轉換。研究共測試了三種著名的一維混沌映射:Logistic 映射(邏輯斯諦映射)Skew tent 映射(斜帳篷映射)以及 Sine 映射(正弦映射)。Logistic 映射在參數接近 4 時會產生高度不規則但有界的輸出;Skew tent 映射雖是分段線性,卻具備均勻分佈與強烈的混合行為;Sine 映射則提供平滑但高度非線性的軌跡變化。這三個映射都能在不改變特徵維度、不增加任何可訓練參數的前提下,重塑特徵空間,使得小樣本學習下的決策邊界更為明朗。

MNIST與Fashion-MNIST灰階影像測試對比

為了驗證這套混沌架構的實際效益,研究團隊首先在 MNISTFashion-MNIST 兩個經典的 10 類別灰階影像資料集上進行測試。考量到是模擬低數據環境,實驗刻意將每類別的訓練樣本數壓縮至 40、50 與 60 個,並分別搭載 2 層與 3 層卷積結構的輕量化 CNN 進行交叉驗證與模型訓練。

實驗數據表明,相較於未加裝混沌轉換的獨立基準線(Standalone CNN,簡稱 SA),加入混沌映射的模型幾乎在所有設定下都獲得了顯著的 Macro F1-score 提升。在 MNIST 測試中,Skew tent 映射搭配 3 層 CNN 在每類別 40 個樣本時,締造了高達 5.43% 的成長。而在圖案更為複雜的 Fashion-MNIST 測試中,Logistic 映射展現了極高的穩定度,而 Sine 映射配合 3 層 CNN 在 50 個樣本時,更一舉將性能推升了 9.11%。這清楚顯示,數據量越是匱乏,混沌轉換帶來的效益越顯著。

CIFAR-10測試:零參數增加達成7.47%提升

除了灰階影像,團隊進一步將測試延伸至 CIFAR-10 這個包含 10 個類別的 RGB 彩色影像資料集。針對色彩與特徵更複雜的場景,基礎網路被加深至 5 層卷積架構,樣本數則設定為每類別 100、150 與 200 個,以檢視該機制在中度受限資料環境下的適用性。

CIFAR-10 的測試結果同樣令人振奮。在每類別 100 個樣本的極端情況下,Logistic 與 Sine 映射最先發揮穩定作用;隨著樣本數增加至 150 與 200 個,Skew tent 映射後來居上,在 200 個樣本時繳出了高達 7.47% 的性能增幅。值得注意的是,儘管訓練樣本數目增加會讓未改造的基準 CNN 也學得更好,進而使混沌映射帶來的相對提升比例略微收斂,但整體的絕對準確度依然穩健領先。這些數字印證了,無論影像格式與網路深度如何改變,混沌轉換都是一項可靠的增強策略。

低數據場景泛化潛力與未來模型可解釋性

綜合灰階與彩色資料集的表現,這項研究確認了一個重要現象:CNN 的性能提升並非依賴於某一種特定的數學公式,而是源於這三個混沌系統所共享的非線性與動態本質。傳統上為了提升泛化能力而加入的新模組,往往伴隨著更高的運算成本與模型肥大化風險;而混沌映射層卻做到了運算效率極高且完全無需訓練新參數。

這套方法能輕易無縫接入現有的任何 CNN 開發管線中,特別適合應用於邊緣運算或是資料收集困難的分類任務。展望未來,研究團隊預計將深入探討這套混沌 CNN 模型的可解釋性,進一步釐清微觀層面上的非線性擾動,究竟是如何在決策層中引導出更強韌的特徵表示。

在 CNN 分類層前置入免訓練參數的混沌映射,能以零負擔擾動特徵空間,大幅化解小樣本過擬合危機。

Abstract

Convolutional neural networks (CNNs) often exhibit poor generalisation in limited training data scenarios due to overfitting and insufficient feature diversity. In this work, a simple and effective chaos-based feature transformation is proposed to enhance CNN performance without increasing model complexity. The method applies nonlinear transformations using logistic, skew tent, and sine maps to normalised feature vectors before the classification layer, thereby reshaping the feature space and improving class separability. The approach is evaluated on greyscale datasets (MNIST and Fashion-MNIST) and an RGB dataset (CIFAR-10) using CNN architectures of varying depth under limited data conditions. The results show consistent improvement over the standalone (SA) CNN across all datasets. Notably, a maximum performance gain of 5.43% is achieved on MNIST using the skew tent map with a 3-layer CNN at 40 samples per class. A higher gain of 9.11% is observed on Fashion-MNIST using the sine map with a 3-layer CNN at 50 samples per class. Additionally, a strong gain of 7.47% is obtained on CIFAR-10 using the skew tent map at 200 samples per class. The consistent improvements across different chaotic maps indicate that the performance gain is driven by the shared nonlinear and dynamical properties of chaotic systems. The proposed method is computationally efficient, requires no additional trainable parameters, and can be easily integrated into existing CNN architectures, making it a practical solution for data-scarce image classification tasks.