Learning to count small and clustered objects with application to bacterial colonies
少樣本計數新突破:ACFamNet Pro MNAE 9.64%,比 FamNet 低 12.71 個百分點
- RoI Align 取代 RoI Pooling,消除小物體在特徵圖上的座標對齊誤差
- 多頭注意力 + 殘差連接讓 ACFamNet Pro MNAE 達 9.64%,比 FamNet 低 12.71 點
- 端到端可訓練 + 單一卷積特徵提取,在 125 張影像的 5-fold 驗證下大幅降低計算成本
在培養皿影像中數菌落,看起來比數人群容易——但它同時帶來四大難題:物理尺寸極小、密集叢生、標注成本高、跨物種泛化困難。這篇論文提出 ACFamNet Pro,在 5-fold 交叉驗證下達到 MNAE 9.64%(歸一化平均絕對誤差,越低越好),比原版 FamNet 整整低 12.71 個百分點,且只需少量示例樣本即可運作。
菌落計數四大挑戰與現有方法的不足
菌落計數(bacterial colony counting)在疫苗與抗生素研發中是基礎工序——培養皿中每毫升細菌存活數量必須精確量化,計數結果同時也是表面清潔度、產品無菌程度的重要指標。傳統人工目測費時易錯;電腦視覺方法面對的四大困難是:(1)菌落尺寸極小,佔影像面積極低;(2)菌落密集叢生,互相重疊難以分離;(3)人工標注成本高昂;(4)不同物種菌落在顏色、形狀、透明度、密度上差異極大,模型難以跨物種遷移。
現有方法各自只解決部分問題。傳統影像處理(邊緣偵測、分水嶺演算法等)無需標注資料,卻需大量手動調參,難以自動適應不同物種。機器學習方法(CNN、U-Net、YOLO、Mask R-CNN 系列)可從資料中學習特徵,卻依賴大量標注,且對密集叢生目標往往計數失準。密度圖估計(density map estimation,預測影像各位置的物件密度值後加總得到計數)對叢生物件最友善,但跨類別遷移同樣需要重新訓練。
少樣本物件計數(few-shot object counting)是目前最有潛力同時解決「標注成本」與「跨類別泛化」的框架:只用少數幾張標注示例,模型在推論時無需重新訓練,即可適應新物種。FamNet 是這個框架的代表,能用 3 張示例圖計數多達 147 種通用物件,以預訓練 ResNet-50 提取特徵。然而 FamNet 對小尺寸物件的效果從未被系統研究,且非端到端訓練的架構限制了模型最佳化。
ACFamNet:RoI Align 解決小物體對齊問題
本文的第一個貢獻是 ACFamNet(Aligned Custom Few-shot Adaptation and Matching Network),針對 FamNet 處理小物體的主要弱點提出改進。
FamNet 使用 RoI Pooling(感興趣區域池化)從特徵圖上擷取示例特徵,但這個操作在座標量化時會引入對齊誤差——對一般大小物件影響有限,對小物件卻可能導致嚴重資訊遺失。ACFamNet 將 RoI Pooling 替換為 RoI Align(感興趣區域對齊,透過雙線性插值消除量化誤差),精確保留小尺寸示例的空間位置資訊。
架構上還有三項工程改進:特徵提取模組簡化為單一 7×7 卷積層,大幅降低計算成本,效果不遜於 FamNet 的 ResNet-50;設計為端到端可訓練(end-to-end trainable),所有模組聯合最佳化,而 FamNet 需要分階段訓練;僅使用單一尺度因子(FamNet 用三個),進一步提升計算效率。ACFamNet 在更低計算成本下縮短了 FamNet 在小物體計數上的性能差距。
ACFamNet Pro 的多頭注意力與殘差連接設計
ACFamNet Pro 在 ACFamNet 基礎上,借鑑 SAFECount 和 ResNet-50 的設計,新增殘差特徵增強模組(Residual Feature Enhancement Module)。
模組的核心是仿多頭注意力機制(multi-head attention),但與 Transformer 標準注意力不同的是,ACFamNet Pro 保留特徵圖的空間結構(C×H×W),而非展平為序列,因此可在空間維度上精細比對,不損失位置資訊。流程分為兩個區塊:特徵相關性區塊(Feature Correlation Block)把查詢特徵與示例特徵投影到相同空間,透過逐點比對生成得分圖,再分別沿示例維度(ENorm)和空間維度(SNorm)做雙重正規化,確保相似度圖的數值穩定且有意義。特徵增強區塊(Feature Enhancement Block)以正規化後的相似度圖為權重,把示例特徵的空間結構反向投影回查詢特徵,再透過可學習的 LayerNorm + 卷積塊輸出增強特徵。整個殘差特徵增強模組可堆疊多次,模擬多頭注意力的多層效果。
在迴歸模組中,ACFamNet Pro 加入三條殘差連接(residual connections),讓增強特徵與相似度圖直接跳躍連接至第三層卷積輸入,改善梯度流動、防止梯度消失。相比 SAFECount,ACFamNet Pro 使用可學習卷積層提取特徵(而非凍結的 ResNet-18)、將相似度圖加入殘差連接,以及使用 RoI Align 而非 RoI Pooling,三點均有所強化。
MNAE 9.64%:5-fold 驗證下勝 FamNet 12.71 點
實驗在 Synoptics Dataset 上進行,由 Synoptics Ltd 提供,共 125 張培養皿影像,涵蓋多種未知物種,菌落在顏色、大小、形狀上差異顯著。原始影像從 3×1040×1040 裁切至 3×680×680,去除培養皿以外區域;菌落中心點與邊界框由 ProtoCOL 軟體輔助標注,再由第一作者人工校核確認。資料集按 8:2 分割為 100 張訓練圖和 25 張測試圖,並採用 5-fold 交叉驗證確保結果可靠性。
ACFamNet Pro 達到 MNAE 9.64%,分別優於 ACFamNet 2.23 個百分點、優於 FamNet 12.71 個百分點,驗證了多頭注意力與殘差連接在小物件叢生計數任務上的有效性。消融實驗也顯示,不重複進行多次特徵相關性計算(單一尺度)的 ACFamNet 效果已足夠,無需額外多尺度迭代,進一步簡化設計。
論文也坦誠目前的限制:Synoptics Dataset 的物種標籤未知,訓練集與測試集可能包含相同物種,這打破了少樣本學習「訓練類別不重疊測試類別」的基本假設,可能使跨物種泛化能力的評估偏樂觀。此外,訓練集(40-50 個菌落為主)與測試集(70-80 個為主)的菌落數量分佈存在差異,對泛化性能的影響仍待深入研究。
ACFamNet Pro 以 RoI Align + 多頭注意力 + 殘差連接,MNAE 9.64% 超越 FamNet 12.71 點,少樣本小物體叢生計數的工程路線清晰可期。