MS-SSE-Net: A Multi-Scale Spatial Squeeze-and-Excitation Network for Structural Damage Detection in Civil and Geotechnical Engineering

Saif ur Rehman Khan, Imad Ahmed Waqar, Arooj Zaib, Saad Ahmed, Sebastian Vollmer, et al.

View Original ↗
AI 導讀 technology infrastructure 重要性 4/5

MS-SSE-Net 結合並行多尺度卷積與空間注意力,在九類基礎設施裂縫檢測中達到 99.31% 的極高準確率。

  • 採用 DenseNet201 為骨幹網路,透過密集連接機制大幅改善特徵重用與模型訓練期間的梯度流動。
  • 專利 MS-SSE 模組利用 3x3 與 5x5 並行卷積,單次運算即可同時捕捉微觀裂紋細節與巨觀結構幾何。
  • 在包含近八萬張影像的 StructDamage 資料庫測試中,全面超越包含頂規 ViT 在內的 16 款指標模型。

由多國研究團隊開發的 MS-SSE-Net 深度學習框架,在涵蓋九大類土木結構的損傷影像分類測試中,成功達成了 99.31% 的極高準確率與 99.27% 的 F1-score。透過創新的多尺度特徵提取與雙重注意力機制,這項技術能將無人機捕捉的影像轉化為高精密度的自動化診斷工具,解決傳統基礎設施檢測的耗時與主觀痛點。

DenseNet201 骨幹網路與 MS-SSE 模組的全新架構

土木基礎設施如橋樑與大壩的結構耐久性,是維持社會經濟穩定的重要基準。然而,隨著資產老化、環境壓力與材料退化,表面裂縫成為結構健康監測(SHM)最直接的視覺指標。傳統仰賴人工視覺的檢查方式不僅耗時,更受限於主觀判斷與人為疏失。為了解決這項挑戰,營建與工程界正快速轉向以數位影像處理與深度學習(DL)為基礎的自動化監測系統,特別是利用無人機與閉路電視所蒐集的高解析度影像來進行分析。

傳統卷積神經網路(CNN)在處理這類影像時,往往只使用單一尺度的卷積核。這種設計限制了網路的感受野,使其難以同時捕捉細微的毛細裂紋與更廣泛的結構環境資訊。此外,常規架構平等對待所有特徵通道,無法特別凸顯最具指標性的損傷模式,在面對複雜環境光影與背景雜訊時極易導致誤判。

針對這些技術瓶頸,研究團隊提出了 MS-SSE-Net 框架。這套架構選用 DenseNet201 作為骨幹網路,其獨特的密集連接機制能讓網路中每一層都直接接收來自前面所有層的特徵圖。這種架構不僅促進了影像特徵的重複利用,也大幅改善了訓練過程中的梯度流動,相較於其他知名模型,能在更低的參數負擔下學習到更豐富的結構損傷特徵。

並行深度卷積與空間注意力的特徵優化設計

在 DenseNet201 的基礎上,研究團隊引入了名為 MS-SSE(Multi-Scale Spatial Squeeze-and-Excitation)的全新深度學習模組。該模組接收來自骨幹網路最後一層、包含 1920 個通道的高維度特徵圖,並將其導向兩個並行的深度卷積(Depthwise Convolution)分支進行多尺度運算。

第一個分支採用 3x3 卷積核,專門用來捕捉局部的精細特徵,確保模型不漏看任何細微裂痕;第二個分支則採用 5x5 卷積核,提供更寬廣的空間視角,協助網路理解整體損傷的幾何形狀。這兩個分支處理完畢後,會透過特定的降維卷積技術進行壓縮,接著重新拼接成一組 256 通道的多尺度特徵圖。雙軌並行的設計,讓系統具備了同時檢視微觀細節與巨觀輪廓的強大分析能力。

融合後的多尺度特徵接著會進入注意力機制的篩選階段。首先是通道注意力區塊,它會動態評估不同特徵通道的相對重要性,並賦予關鍵特徵更高的權重。緊接著,空間注意力模組透過矩陣運算與激勵函數,直接在二維影像空間上放大包含裂縫等關鍵資訊的像素區域,同時大幅削弱周遭雜訊的干擾,最終產出精確的分類預測。

StructDamage 測試集達成 99.31% 整體準確率

為了驗證 MS-SSE-Net 的實戰效能,研究團隊選用了 StructDamage 資料集進行了大規模基準測試。這是一個匯集了 32 個獨立開源庫、總計包含 78,093 張影像的綜合性資料集,完整涵蓋了九種不同材質與場景的結構損傷:包含磚塊、土牆、混凝土、甲板、人行道、道路、石頭、瓷磚以及牆壁表面的裂縫瑕疵。

面對原始影像集中道路與人行道影像比例過度膨脹的不平衡問題,開發團隊採取了嚴謹的資料預處理策略。對於數量過多的類別,利用感知雜湊(Perceptual Hashing)技術計算漢明距離,強制剔除視覺相似度過高的重複樣本;對於少數弱勢類別,則啟動幾何轉換與光度調整等資料擴增程序。這套流程最終篩選出 41,756 張分佈絕對均勻的影像進行模型訓練。

在嚴格劃分的測試集下,MS-SSE-Net 展現了驚人的判別水準。模型整體不僅繳出 99.31% 的整體準確率與 99.25% 的精確度,在土牆、混凝土與瓷磚等單一類別上更達到了 100% 的完美辨識率。即便是視覺特徵極為相似、極易引發混淆的甲板與牆壁類別,該架構也能有效收斂誤差,證明其具備跨材質的強大泛化能力。

實測表現超越 16 款 ImageNet 基準網路

為確立這套新架構在演算法同儕中的領先地位,研究團隊將 MS-SSE-Net 與 16 款基於 ImageNet 預訓練的經典運算模型進行了殘酷對比,測試陣容包含 EfficientNetV2、ResNetV2 以及近年來備受推崇的視覺變換器(Vision Transformer, ViT)家族。數據清楚顯示,儘管最高階的 ViT 變體也能達到 98.30% 以上的優秀表現,但 MS-SSE-Net 依舊在準確率、召回率等四大指標上保持著全面制霸的地位。

單純檢視未經改良的 DenseNet201 骨幹網路,其整體準確率雖高達 98.62%,但在面對邊界模糊的「牆壁」類別時,精確度大幅滑落至 92.72%,顯示傳統卷積設計在處理複雜表面紋理時仍有難以跨越的盲點。而 MS-SSE-Net 透過專屬特徵萃取機制的介入,成功將這些弱勢類別的辨識指標重新拉回 99% 的水準,大幅削減了工業檢測中最忌諱的漏報風險。

研發團隊進一步實施了消融實驗,將業界常用的標準注意力模組(如 CBAM、通道注意力 CA、殘差區塊 RB 等)強制植入 DenseNet201 進行效能壓測。實測證實,即使是表現最佳的 CBAM 擴展模組,其極限準確率也停留在 99.00%,完全無法撼動 MS-SSE-Net 99.31% 的統治地位。這項交叉比對確立了並行深度卷積設計的不可替代性。

Grad-CAM 熱力圖解析視覺特徵與工業潛力

在工業級的基礎設施維護體系中,人工智慧系統的可解釋性是推動商業落地的核心關鍵。工程人員必須確切理解演算法是依據哪些視覺證據做出裁決,才能建立起對自動化檢測技術的長期信任。基於這項需求,團隊導入了 Grad-CAM(梯度加權類別活化映射)技術,對整個分類管線進行了深度的解構與視覺解析。

利用這項視覺化工具,系統計算了預測分數相對於深層特徵圖的運算梯度,並生成直接覆蓋在原始影像上的高彩度熱力圖。這些畫面毫無保留地揭示,不論是柏油路面上的蜘蛛網狀龜裂,還是混凝土結構上的細微縱向應力裂紋,MS-SSE-Net 的注意力演算始終精準錨定在破壞幾何特徵上,絲毫未受周遭陰影、水漬或複雜背景的誤導。

具備高度抗雜訊能力與驚人準確率的特性,賦予了這套模型極具想像空間的應用版圖。除了橋樑與水壩的例行表面安檢,這套輕量級的演算法亦能輕易封裝進邊緣運算裝置或微型無人機中,深入隧道開挖現場、地下探勘工程或進行邊坡穩定性監控,為全球老化中的民生基礎建設提供低成本、高效率的自動化防護網。

多尺度特徵提取與雙重注意力機制的完美融合,不僅突破傳統卷積架構極限,更為大型公共建設的自動化檢測樹立了全新標竿。

Abstract

Structural damage detection is essential for maintaining the safety and reliability of civil infrastructure. However, accurately identifying different types of structural damage from images remains challenging due to variations in damage patterns and environmental conditions. To address these challenges, this paper proposes MS-SSE-Net, a novel deep learning (DL) framework for structural damage classification. The proposed model is built upon the DenseNet201 backbone and integrates novel multi-scale feature extraction with channel and spatial attention mechanisms (MS-SSE-Net). Specifically, parallel depthwise convolutions capture both local and contextual features, while squeeze-and-excitation style channel attention and spatial attention emphasize informative regions and suppress irrelevant noise. The refined features are then processed through global average pooling and a fully connected classification layer to generate the final predictions. Experiments are conducted on the StructDamage dataset containing multiple structural damage categories. The proposed MS-SSE-Net demonstrates superior performance compared with the baseline DenseNet201 and other comparative approaches. Specifically, the proposed method achieves 99.31% precision, 99.25% recall, 99.27% F1-score, and 99.26% accuracy, outperforming the baseline model which achieved 98.62% precision, 98.53% recall, 98.58% F1-score, and 98.53% accuracy.