Learning to count small and clustered objects with application to bacterial colonies

Minghua Zheng, Na Helian, Peter C. R. Lane, Yi Sun, Allen Donald

View Original ↗
AI 導讀 technology AI 重要性 3/5

少樣本計數新突破:ACFamNet Pro MNAE 9.64%,比 FamNet 低 12.71 個百分點

  • RoI Align 取代 RoI Pooling,消除小物體在特徵圖上的座標對齊誤差
  • 多頭注意力 + 殘差連接讓 ACFamNet Pro MNAE 達 9.64%,比 FamNet 低 12.71 點
  • 端到端可訓練 + 單一卷積特徵提取,在 125 張影像的 5-fold 驗證下大幅降低計算成本

在培養皿影像中數菌落,看起來比數人群容易——但它同時帶來四大難題:物理尺寸極小、密集叢生、標注成本高、跨物種泛化困難。這篇論文提出 ACFamNet Pro,在 5-fold 交叉驗證下達到 MNAE 9.64%(歸一化平均絕對誤差,越低越好),比原版 FamNet 整整低 12.71 個百分點,且只需少量示例樣本即可運作。

菌落計數四大挑戰與現有方法的不足

菌落計數(bacterial colony counting)在疫苗與抗生素研發中是基礎工序——培養皿中每毫升細菌存活數量必須精確量化,計數結果同時也是表面清潔度、產品無菌程度的重要指標。傳統人工目測費時易錯;電腦視覺方法面對的四大困難是:(1)菌落尺寸極小,佔影像面積極低;(2)菌落密集叢生,互相重疊難以分離;(3)人工標注成本高昂;(4)不同物種菌落在顏色、形狀、透明度、密度上差異極大,模型難以跨物種遷移。

現有方法各自只解決部分問題。傳統影像處理(邊緣偵測、分水嶺演算法等)無需標注資料,卻需大量手動調參,難以自動適應不同物種。機器學習方法(CNN、U-Net、YOLO、Mask R-CNN 系列)可從資料中學習特徵,卻依賴大量標注,且對密集叢生目標往往計數失準。密度圖估計(density map estimation,預測影像各位置的物件密度值後加總得到計數)對叢生物件最友善,但跨類別遷移同樣需要重新訓練。

少樣本物件計數(few-shot object counting)是目前最有潛力同時解決「標注成本」與「跨類別泛化」的框架:只用少數幾張標注示例,模型在推論時無需重新訓練,即可適應新物種。FamNet 是這個框架的代表,能用 3 張示例圖計數多達 147 種通用物件,以預訓練 ResNet-50 提取特徵。然而 FamNet 對小尺寸物件的效果從未被系統研究,且非端到端訓練的架構限制了模型最佳化。

ACFamNet:RoI Align 解決小物體對齊問題

本文的第一個貢獻是 ACFamNet(Aligned Custom Few-shot Adaptation and Matching Network),針對 FamNet 處理小物體的主要弱點提出改進。

FamNet 使用 RoI Pooling(感興趣區域池化)從特徵圖上擷取示例特徵,但這個操作在座標量化時會引入對齊誤差——對一般大小物件影響有限,對小物件卻可能導致嚴重資訊遺失。ACFamNet 將 RoI Pooling 替換為 RoI Align(感興趣區域對齊,透過雙線性插值消除量化誤差),精確保留小尺寸示例的空間位置資訊。

架構上還有三項工程改進:特徵提取模組簡化為單一 7×7 卷積層,大幅降低計算成本,效果不遜於 FamNet 的 ResNet-50;設計為端到端可訓練(end-to-end trainable),所有模組聯合最佳化,而 FamNet 需要分階段訓練;僅使用單一尺度因子(FamNet 用三個),進一步提升計算效率。ACFamNet 在更低計算成本下縮短了 FamNet 在小物體計數上的性能差距。

ACFamNet Pro 的多頭注意力與殘差連接設計

ACFamNet Pro 在 ACFamNet 基礎上,借鑑 SAFECount 和 ResNet-50 的設計,新增殘差特徵增強模組(Residual Feature Enhancement Module)

模組的核心是仿多頭注意力機制(multi-head attention),但與 Transformer 標準注意力不同的是,ACFamNet Pro 保留特徵圖的空間結構(C×H×W),而非展平為序列,因此可在空間維度上精細比對,不損失位置資訊。流程分為兩個區塊:特徵相關性區塊(Feature Correlation Block)把查詢特徵與示例特徵投影到相同空間,透過逐點比對生成得分圖,再分別沿示例維度(ENorm)和空間維度(SNorm)做雙重正規化,確保相似度圖的數值穩定且有意義。特徵增強區塊(Feature Enhancement Block)以正規化後的相似度圖為權重,把示例特徵的空間結構反向投影回查詢特徵,再透過可學習的 LayerNorm + 卷積塊輸出增強特徵。整個殘差特徵增強模組可堆疊多次,模擬多頭注意力的多層效果。

在迴歸模組中,ACFamNet Pro 加入三條殘差連接(residual connections),讓增強特徵與相似度圖直接跳躍連接至第三層卷積輸入,改善梯度流動、防止梯度消失。相比 SAFECount,ACFamNet Pro 使用可學習卷積層提取特徵(而非凍結的 ResNet-18)、將相似度圖加入殘差連接,以及使用 RoI Align 而非 RoI Pooling,三點均有所強化。

MNAE 9.64%:5-fold 驗證下勝 FamNet 12.71 點

實驗在 Synoptics Dataset 上進行,由 Synoptics Ltd 提供,共 125 張培養皿影像,涵蓋多種未知物種,菌落在顏色、大小、形狀上差異顯著。原始影像從 3×1040×1040 裁切至 3×680×680,去除培養皿以外區域;菌落中心點與邊界框由 ProtoCOL 軟體輔助標注,再由第一作者人工校核確認。資料集按 8:2 分割為 100 張訓練圖和 25 張測試圖,並採用 5-fold 交叉驗證確保結果可靠性。

ACFamNet Pro 達到 MNAE 9.64%,分別優於 ACFamNet 2.23 個百分點、優於 FamNet 12.71 個百分點,驗證了多頭注意力與殘差連接在小物件叢生計數任務上的有效性。消融實驗也顯示,不重複進行多次特徵相關性計算(單一尺度)的 ACFamNet 效果已足夠,無需額外多尺度迭代,進一步簡化設計。

論文也坦誠目前的限制:Synoptics Dataset 的物種標籤未知,訓練集與測試集可能包含相同物種,這打破了少樣本學習「訓練類別不重疊測試類別」的基本假設,可能使跨物種泛化能力的評估偏樂觀。此外,訓練集(40-50 個菌落為主)與測試集(70-80 個為主)的菌落數量分佈存在差異,對泛化性能的影響仍待深入研究。

ACFamNet Pro 以 RoI Align + 多頭注意力 + 殘差連接,MNAE 9.64% 超越 FamNet 12.71 點,少樣本小物體叢生計數的工程路線清晰可期。

Abstract

Automated bacterial colony counting from images is an important technique to obtain data required for the development of vaccines and antibiotics. However, bacterial colonies present unique machine vision challenges that affect counting, including (1) small physical size, (2) object clustering, (3) high data annotation cost, and (4) limited cross-species generalisation. While FamNet is an established object counting technique effective for clustered objects and costly data annotation, its effectiveness for small colony sizes and cross-species generalisation remains unknown. To address the first three challenges, we propose ACFamNet, an extension of FamNet that handles small and clustered objects using a novel region of interest pooling with alignment and optimised feature engineering. To address all four challenges above, we introduce ACFamNet Pro, which augments ACFamNet with multi-head attention and residual connections, enabling dynamic weighting of objects and improved gradient flow. Experiments show that ACFamNet Pro achieves a mean normalised absolute error (MNAE) of 9.64% under 5-fold cross-validation, outperforming ACFamNet and FamNet by 2.23% and 12.71%, respectively.