arXiv Full Text 2026-04-15

Interpretable Human Activity Recognition for Subtle Robbery Detection in Surveillance Videos

Bryan Jhoan Cazáres Leyva, Ulises Gachuz Davila, José Juan González Fonseca, Juan Irving Vasquez, Vanessa A. Camacho-Vázquez, et al.

View Original ↗

AI 導讀 technology AI 重要性 3/5

邊緣 AI 系統整合 YOLO 骨架分析，以 73.3% 準確率即時辨識街頭搶奪。

透過 YOLO 萃取骨架關鍵點，有效排除視覺雜訊並降低運算負載。
篩選 10 項關鍵互動特徵，確保搶劫辨識的準確度與決策可解釋性。
時間濾波機制穩定連續預測，系統成功於邊緣開發板執行即時辨識。

街頭「順手牽羊」等非暴力搶奪過程極快，傳統監控系統難以自動辨識。墨西哥研究團隊提出結合 YOLO 骨架萃取與隨機森林分類器的混合系統，在網路測試資料集中達成 73.3% 的辨識準確率與 0.83 的非搶劫精確率。這套具備高度可解釋性的架構，已成功在 NVIDIA Jetson Nano 上實現即時邊緣運算，為自動化治安防護開啟全新路徑。

捨棄複雜神經網路：YOLO 重建 17 個關鍵點軌跡

公共安全領域針對非暴力街頭搶劫的防護，長期受限於對即時人力監控的過度依賴。過去在行為辨識領域，研究者多仰賴運算密集的 RGB 連續影像或深度影片，而後轉向基於三維骨架的動作識別（SAR）技術，透過分析人體關節與骨骼的拓撲關係來捕捉動作細節。現代方法多半採用長短期記憶網路（LSTM）、圖卷積神經網路（GCN）甚至 Transformer 架構來處理全域特徵。然而，這些端到端深度學習模型通常像個「黑盒子」，不僅運算成本高昂，且極度缺乏可解釋性，難以明確指出是哪個關鍵動作觸發了搶劫判定。

為了解決運算負載與透明度的問題，研究團隊採用了兩階段的骨架萃取技術。系統首階利用 YOLO（一種高效率的即時物件偵測模型）找出畫面中的所有人員，接著利用姿態估計模型預測出每個人的 17 個身體關鍵節點，涵蓋口鼻、眼睛、雙肩、手腕到腳踝等精確位置。取得原始數據後，演算法進一步套用指數移動平均（EMA）模型來平滑關節的運動軌跡，有效降低畫面閃爍與估計誤差造成的雜訊。這種做法保留了純粹的肢體動態數據，大幅排除了環境背景與衣著顏色的視覺干擾。

由於在人際互動情境中往往存在「加害者」與「受害者」兩種角色，系統在缺乏先驗知識的情況下，會同時評估所有對象的軌跡。演算法透過追蹤骨架在時間軸上的平均位移，結合 Softmax 函數計算出每個人是「加害者」的機率分數，以此鎖定移動最為劇烈的潛在嫌疑人。這不僅降低了後端比對的運算複雜度，更為接續的動作行為特徵萃取奠定了良好基礎。

從上百項數據精煉 10 大關鍵：隨機森林剖析互動特徵

建立平滑的骨架軌跡後，系統會計算出高度可解釋的運動與互動特徵，並將所有距離與速度數值以人體軀幹高度進行正規化，以消除攝影機遠近造成的比例縮放問題。這些特徵主要分為兩大類，第一類針對單一追蹤對象的個人運動軌跡，例如手腕瞬間極速（handVelocity）、手臂伸展幅度（armExtension），以及手臂在達到最大伸展後 0.2 秒內的快速收回程度（armRetraction0p2s）。這項指標能有效量化歹徒「快速出手並迅速抽回」的典型搶奪模式。

第二類則是著重於雙人互動狀態的相對特徵。包含受害者與加害者的中心點相對距離、邊界框重疊面積（IoU）的高峰值，以及最大交疊後 0.2 秒內的急速分離狀態（iouDrop0p2s）。此外，系統還會運算加害者的手腕速度向量與受害者軀幹之間的餘弦相似度（handTowardCos），這個數值越接近 1，代表肢體直接攻擊的意圖越為明顯。

取得大量描述性特徵後，團隊將數據匯入 隨機森林（Random Forest） 模型（一種藉由建構多棵決策樹來進行分類的演算法）。透過分析特徵重要性權重，系統最終僅保留了 10 項最具影響力的關鍵數據。其中，「兩人之間的距離（AB_dist_p95）」被評估為最核心的判斷依據。研究人員還進一步套用主成分分析（PCA）來驗證這 10 項特徵的分離度，確保這套精簡後的特徵組合足以維持辨識複雜街頭犯罪的精準度。

導入時間遲滯濾波器：穩定 0.4 秒視窗內的連續判定

將單一畫面逐格交由活動分類器判斷時，極容易因為姿態估計的雜訊、物體短暫遮蔽或模糊的連續動作而產生不穩定的預測結果。為了避免系統不斷發出虛假的瞬間警報，研究人員在決策流程的最末端加入了時間遲滯濾波器（Temporal hysteresis filter），為警報的觸發與解除設定了不對等的雙重門檻。這套穩定機制能大幅減少不必要的巡邏資源浪費。

具體而言，系統會維持一個內部的警報狀態紀錄，並持續監控一段長度約為 0.4 秒的連續影像滑動視窗。只有當隨機森林分類器在這個視窗內，給出超過指定次數的「搶劫」預測時，正式警報才會被觸發。相對地，一旦警報啟動，若要讓系統判定威脅已經解除，連續預測為「非搶劫」的次數必須低於另一個更為嚴格的閾值。

這種需要累積足夠「證據」才會改變狀態的雙門檻設計，成功防止了判定結果在短暫的誤判峰值中來回切換。當警報狀態確實由 0 轉為 1 時，這套整合系統不僅會立即發出實體示警，還會同步儲存該事件前後的動態影像片段作為實質證據，大幅減輕了後端安防人員肉眼審查長時間監控畫面的視覺疲勞。

突破邊緣運算極限：NVIDIA Jetson Nano 盲測

驗證這套混合式架構的實務可行性是研究的最終目標。為了進行模型訓練，團隊親自錄製並建構了一個涵蓋不同時間、視角與地點的「順手牽羊」專屬資料集，總計包含 90 筆高品質樣本。為了對抗類別不平衡，模型內部啟用了高達 500 棵決策樹的平行運算，並在此驗證集上取得了 0.83 的整體分類準確率，針對搶劫事件的召回率（Recall）亦高達 0.83，展現了極佳的行為敏感度。

為了面對真實場景的嚴苛考驗，團隊另外從網路蒐集了 47 筆視角差異極大、解析度參差不齊的未經修飾影片進行盲測。在這項更高難度的驗證中，模型對非搶劫樣本的精確率達到 0.78，整體非搶劫分類準確率維持在 73.3%；儘管針對搶劫事件的召回率因為網路畫質受限而微幅降至 0.59，但考慮到龐大的場景變異性，該數據仍具備作為主動式安防輔助工具的實用價值。

開發團隊不僅在模型演算法上取得進展，更落實了邊緣運算的軟硬體完美整合。系統採用 Python 開發，並藉由 Flask 框架（一種輕量級的網頁伺服器工具）建立通訊 API，將負責預測的程式碼成功運行在功耗極低的 NVIDIA Jetson Nano 單板開發板上。這項實測結果證實，即使不仰賴昂貴的雲端 GPU 運算伺服器，透過特徵工程精簡後的 AI 架構，依然能在最前線的監控設備中即時捕捉犯罪瞬間。

結合輕量化物件偵測與特徵工程的邊緣運算，不僅在資源受限的終端設備上實現即時搶劫示警，也證明了透明可解釋的 AI 架構在實體安防領域具備高度實用價值。

Abstract

Non-violent street robberies (snatch-and-run) are difficult to detect automatically because they are brief, subtle, and often indistinguishable from benign human interactions in unconstrained surveillance footage. This paper presents a hybrid, pose-driven approach for detecting snatch-and-run events that combines real-time perception with an interpretable classification stage suitable for edge deployment. The system uses a YOLO-based pose estimator to extract body keypoints for each tracked person and computes kinematic and interaction features describing hand speed, arm extension, proximity, and relative motion between an aggressor-victim pair. A Random Forest classifier is trained on these descriptors, and a temporal hysteresis filter is applied to stabilize frame-level predictions and reduce spurious alarms. We evaluate the method on a staged dataset and on a disjoint test set collected from internet videos, demonstrating promising generalization across different scenes and camera viewpoints. Finally, we implement the complete pipeline on an NVIDIA Jetson Nano and report real-time performance, supporting the feasibility of proactive, on-device robbery detection.

Interpretable Human Activity Recognition for Subtle Robbery Detection in Surveillance Videos

捨棄複雜神經網路：YOLO 重建 17 個關鍵點軌跡

從上百項數據精煉 10 大關鍵：隨機森林剖析互動特徵

導入時間遲滯濾波器：穩定 0.4 秒視窗內的連續判定

突破邊緣運算極限：NVIDIA Jetson Nano 盲測

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。