Similarity-Based Bike Station Expansion via Hybrid Denoising Autoencoders

Oluwaleke Yusuf, M. Tsaqif Wismadi, Adil Rasheed

View Original ↗
AI 導讀 technology AI 重要性 3/5

HDAE 模型免去繁複的需求預測,精準定位出 32 個自行車擴展熱區。

  • HDAE 模型能壓縮 29 維特徵,將群集輪廓分數提升至 0.253。
  • 結合 250 公尺防護網與 Top-k 算法,有效避免站點互搶客源。
  • 以共識機制整合 7 組參數預測,提煉出 32 個高信心擴展熱區。

挪威特隆赫姆市(Trondheim)的公共自行車網路擴展,捨棄了傳統的明確需求預測模型,轉而利用混合降噪自編碼器(HDAE)從 19,474 個城市網格中,提煉出 32 個具備高度共識的擴展熱區。這種純數據驅動的相似度匹配方法,透過壓縮 29 項複雜的城市環境特徵,將潛在選址的群集輪廓分數從 0.135 大幅提升至 0.253,證明了即使缺乏詳細的交通需求數據,依然能精準制定設施擴張策略。

捨棄需求預測:特隆赫姆 19,474 個網格挑戰

BSS(公共自行車系統)是現代城市微型交通的關鍵,但營運商在擴建站點時常面臨挑戰。傳統的選址分配主要依賴明確的需求建模與線性最佳化框架,例如最大覆蓋選址問題。這在缺乏詳細數據的新興市場或快速擴張的城市中難以實行,且數學模型未必能完全捕捉區分「成功站點」與「平庸站點」的微妙城市特徵。為了突破資料限制,研究團隊提出了一種基於相似度的替代方案,假設只要潛在站點與現有成功站點具備相似的特徵,就有很高的機率獲得營運成功。

這項研究以挪威中型城市特隆赫姆的現有自行車網路為測試場域。團隊將市區與周邊住宅區劃分為 100x100 公尺的規則網格,總計切分出 19,474 個網格,其中僅有 68 個網格包含現有的自行車租借站。這項龐大的空間數據工程整合了多源地理資訊,為每個網格提取出 29 項城市變數。

這些變數被嚴謹地歸納為四大主題:涵蓋人口與就業密度的社會人口特徵、包含建築足跡與地形坡度的建成環境特徵、計算自行車道與大眾運輸可及性的交通網絡特徵,以及透過摩爾近鄰(Moore neighbourhood)計算的鄰近空間流動性特徵。面對如此高維度且異質的原始數據,直接計算網格間的相似度不僅容易遭遇雜訊干擾,也會面臨維度災難的阻礙。

降噪自編碼器 HDAE 重塑 29 維空間數據

為了解決高維度運算的困境,研究導入了 HDAE(Hybrid Denoising Autoencoder,混合降噪自編碼器)架構。自編碼器的核心任務是將 29 維的原始輸入,逐層降維至 8 維的潛在表示(Latent representation),並嘗試從這個低維空間重建原始特徵。透過強制模型捕捉最重要的數據模式,編碼器能自動濾除雜訊與無關資訊,降低後續運算的成本。

為了進一步增強模型的穩健性,訓練過程中加入了降噪機制。系統會隨機對 30% 的特徵注入高斯雜訊,強迫模型從被干擾的輸入中還原乾淨的原始特徵。這種設計確保了即使網格的原始特徵存在微小變異,只要整體城市輪廓相似,在潛在空間中依然會緊密聚類。

HDAE 的「混合」特性則來自於頂部的監督式分類頭。由於現有站點與潛在候選網格之間的比例極度失衡(約 1:285),分類頭透過施加額外的二元交叉熵損失(BCE Loss),強制潛在空間建立邊界。這種重建與分類之間的拉扯,會將具備潛力的候選網格推向決策邊界,進而靠近現有站點的嵌入位置。

對比實驗顯示,原始特徵往往只能反映出「距離市中心的遠近」,容易在市郊產生受雜訊驅動的無效選址。反觀 HDAE 嵌入的群集分析,成功捕捉到城市特徵的細微差異,包含南部的海姆達爾(Heimdal)與東部的莫霍爾特(Moholt)等副都心,其平均輪廓分數從原始特徵的 0.135 飆升至 0.253。在選出 68 個候選站點的測試中,兩者僅有 11.76% 的重疊,證實 HDAE 挖掘出了被原始數據隱藏的關鍵模式。

空間衝突圖與 Top-k 的 250 公尺防護網

將網格特徵轉換為高質量的潛在空間後,下一步是進行基於相似度的選址分配。為了避免新站點與現有站點互相搶奪客源,系統建立了一個空間衝突圖(Conflict graph)。演算法利用空間索引技術過濾掉距離現有站點 250 公尺緩衝半徑內的所有候選網格,並確保最終選出的新站點彼此之間也維持相同的空間分散性。

在相似度權重的計算上,研究團隊探索了多種聚合方法。Top-k 方法計算候選網格與排名前 k 個現有站點的平均相似度,當設定為預設值 k=3 時,能在局部特徵與全局模式之間取得最佳平衡。隨著 k 值逐漸放大至 68,Top-k 的選擇結果會收斂至接近 KDE(核密度估計)的全局平滑狀態,兩者在候選名單上的重疊率高達 97% 以上。

系統結合貪婪演算法與局部搜尋優化,依據相似度權重對候選網格進行排序與挑選。SHAP(沙普利加成解釋)的分析結果進一步印證了潛在空間的合理性,影響潛在嵌入最深的前三大特徵分別是:距離最近的大眾運輸站、距離市中心,以及自行車道數量。這表明模型沒有過度依賴單一訊號,而是將多重都市特徵均勻分布在 8 個潛在維度中。

跨越參數分歧:提煉 32 個無爭議的擴展熱區

儘管 Top-k 結合餘弦相似度是一個可靠的預設配置,但敏感度分析顯示,當 k 值改變或切換為歐式距離時,部分邊緣候選站點的排名仍會發生位移。在實務規劃中,由於不存在絕對完美的單一參數設定,決策團隊往往難以決定該相信哪一組配置的結果。

為了化解參數不確定性,研究提出了一套基於共識的擴展選擇程序。團隊將涵蓋七種不同 k 值(從 1 到 68)的選址結果進行池化整合,得出 154 個獨特的候選網格。這些網格被標註了各自的「共識多樣性」,即共有幾種不同的參數組合共同挑選了該網格。數據顯示有 14 個網格在所有七組參數下皆被選中。

接著,系統利用 DBSCAN 演算法對這 154 個網格進行空間分群。為了確保擴展策略的絕對可靠性,團隊採用了最嚴格的門檻:僅保留在全部七組參數下皆取得一致認可的群集。這項共識機制排除了容易隨參數變動的雜訊,最終提煉出 32 個高信心的擴展熱區。

在每個共識熱區中,系統會選出一個中心點作為最具代表性的設站位置。這種做法巧妙地避開了尋求最佳單一參數的困境,並容許營運商根據業務需求,動態限縮參考站點或候選區域。這個混合式框架不僅顛覆了傳統自行車系統的擴張思維,也能無縫推廣到任何需依賴「現有優勢據點」來尋找新目標的空間分配問題上。

純數據驅動的 HDAE 框架證實,學習現有據點的深層特徵,不需需求預測模型也能制定高共識的選址策略。

Abstract

Urban bike-sharing systems require strategic station expansion to meet growing demand. Traditional allocation approaches rely on explicit demand modelling that may not capture the urban characteristics distinguishing successful stations. This study addresses the need to exploit patterns from existing stations to inform expansion decisions, particularly in data-constrained environments. We present a data-driven framework leveraging existing stations deemed desirable by operational metrics. A hybrid denoising autoencoder (HDAE) learns compressed latent representations from multi-source grid-level features (socio-demographic, built environment, and transport network), with a supervised classification head regularising the embedding space structure. Expansion candidates are selected via greedy allocation with spatial constraints based on latent-space similarity to existing stations. Evaluation on Trondheim's bike-sharing network demonstrates that HDAE embeddings yield more spatially coherent clusters and allocation patterns than raw features. Sensitivity analyses across similarity methods and distance metrics confirm robustness. A consensus-based procedure across multiple parametrisations distils 32 high-confidence extension zones where all parametrisations agree. The results demonstrate how representation learning captures complex patterns that raw features miss, enabling evidence-based expansion planning without explicit demand modelling. The consensus procedure strengthens recommendations by requiring agreement across parametrisations, while framework configurability allows planners to incorporate operational knowledge. The methodology generalises to any location-allocation problem where existing desirable instances inform the selection of new candidates.