arXiv Full Text 2026-04-16

Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits

Emre Özyıldırım, Barış Yaycı, Umut Eren Akturk, Cem Tekin

AI 導讀 technology AI 重要性 4/5

Bilkent 大學研究團隊提出 SAT-CTS 演算法，捨棄傳統通道狀態估測，僅靠二元回饋即可讓毫米波網路快速達到 2.5 Gbps 的平均吞吐量門檻。

捨棄高成本的 CSI 估測，改採輕量級 ACK/NACK 二元回饋進行波束與傳輸速率動態分配。
引入「滿意度閾值」概念，解決傳統 MAB 演算法為追求全局最佳解而導致初期網路不穩的問題。
首創組合半海盜問題的有限時間遺憾邊界證明，在非可實現目標下依然具備 O((log T)²) 的效能保證。

毫米波（mmWave）通訊雖然能提供超高頻寬，但其高度定向的波束極易受到實體阻擋，傳統依賴精確通道狀態資訊（CSI）的波束對齊方式成本過高且容易失效。Bilkent 大學研究團隊提出了一種名為 SAT-CTS 的機器學習演算法，直接跳過 CSI 估測，僅透過終端設備回傳的二元 ACK/NACK 訊號，就能確保每個用戶端達到例如 2.5 Gbits/sec 的平均吞吐量門檻，為無基地台狀態感知的波束配置建立全新數學模型。

毫米波通訊的波束對齊難題與無 CSI 挑戰

毫米波技術被視為下一代無線網路（如 6G）的基石，主要用於應對行動數據需求的爆炸性增長，以及支援互動式擴增實境與超高畫質串流等需要極大頻寬的應用。透過利用大量未充分使用的頻譜，毫米波能實現前所未有的峰值數據速率。然而，毫米波獨特的傳播特性，包含高路徑損耗、易受物理阻擋以及極強的方向性，為系統帶來了根本性的限制。

為了克服嚴重的路徑損耗，基地台（BS）與使用者設備（UE）必須使用高度定向的窄波束進行通訊。在傳統架構下，系統需要獲取精確的 CSI（通道狀態資訊） 來對齊這些波束。但在配備龐大天線陣列的毫米波系統中，進行通道探測（Channel Sounding）的成本極高；加上使用者的移動性與環境遮蔽，會迅速讓既有的 CSI 估算失效，迫使系統頻繁重新訓練，進而產生巨大的傳輸開銷與延遲。

研究團隊將目光轉向「無 CSI 的波束自適應（Beam Adaptation without CSI）」技術。發射端完全避開顯式的通道估測，轉而依賴最輕量化的鏈路層回饋。在此架構下，ACK/NACK 回饋提供了一個可靠的二元訊號，用以指示當前的波束與速率配置是否能在當下的傳播條件下順利傳送封包。系統僅需透過這個二元訊號進行迭代更新，就能隱式追蹤優質的波束方向，徹底擺脫獲取 CSI 的重擔。

放棄完美極大值：多武裝海盜演算法的滿意度轉向

將波束與傳輸速率分配模型化後，這本質上是一個典型的序列決策問題。決策系統（Learner）必須在「探索（Exploration）」未知的波束速率組合，以及「利用（Exploitation）」已知表現良好的配置之間取得平衡。學界通常使用 MAB（多武裝海盜問題，Multi-Armed Bandit） 演算法來處理這類探索與利用的權衡。

過去已有大量 MAB 演算法被提出，用於在指數級增長的組合配置中尋找「最佳超級臂（Best Super-arm）」。然而，這些傳統方法的設計初衷多半是追求長期的全局最佳化。在實際的通訊應用中，這會導致系統過度探索次佳配置，造成演算法收斂緩慢。在通訊初期的數個回合內，使用者往往會經歷低落的網路可靠度與吞吐量。

為了改善此缺陷，研究團隊引入了經濟學家 Herbert Simon 的「有限理性（Bounded-rationality）」概念，將重點從「尋找全局最大值」轉移到「尋找夠好的配置」。他們提出將問題框架改為滿足型組合多武裝海盜問題（Satisficing CMAB），並設定一個平均吞吐量門檻 $\tau_r$（例如每時槽 2.5 Gbps）。演算法的目標不再是無止盡地尋找最高網速，而是以最少的樣本數據，迅速達到並維持這個令使用者滿意的服務品質目標。

SAT-CTS 演算法設計與輕量化二元回饋機制

團隊提出的 SAT-CTS（滿足型組合湯普森取樣，Satisficing Combinatorial Thompson Sampling） 演算法，是一套輕量級且具備閾值感知的分配策略。演算法針對每一個「基地台-波束-速率」組合（Base Arm），維護一組共享的計數器與 Beta 機率分佈模型，用來推估該組合的傳輸成功機率。

在每一個時間槽的開頭，SAT-CTS 會計算每個組合的經驗平均值與下界置信區間（LCB），並將這些數值輸入分配預言機（如匈牙利演算法）中進行決策。系統會優先採用期望值超過 $\tau_r$ 門檻的配置，直接將波束與對應的調變編碼策略（MCS）指派給使用者設備。傳輸完成後，基地台僅需回收 1（ACK，成功）或 0（NACK，斷線）的二元訊號來更新系統。

如果目前沒有任何配置能穩定滿足 $\tau_r$ 門檻，SAT-CTS 會進入一個「承諾型 CTS 階段（Committed CTS phase）」。在此階段，演算法會將所有 Beta 先驗機率重置為 Beta(1,1)，並強制執行純粹的湯普森取樣達 $2^i$ 個回合。這種分段且承諾式的設計，確保了每一次探索階段都在明確的時間跨度內進行，並擁有乾淨的先驗數據，為後續嚴格的數學遺憾分析奠定了基礎。

首創理論極限突破：滿足型遺憾與標準遺憾雙保證

本研究最具突破性的學術貢獻，在於提出了首個針對「滿足型目標組合半海盜問題」的有限時間遺憾邊界（Finite-time regret bounds）。研究人員定義了累積滿足型遺憾（Cumulative Satisficing Regret），用來衡量系統表現低於 $\tau_r$ 門檻市所產生的效能落差，並針對兩種情境給出了嚴謹的數學證明。

第一種情境是「目標可實現（Realizable）」，意即當前的實體通道環境的確存在某種配置能穩定超越 $\tau_r$。數學證明顯示，在此條件下，SAT-CTS 演算法的期望累積滿足型遺憾會被一個與時間無關的常數（Time-independent constant）嚴格限制。這代表演算法只要經過短暫的學習期，就能徹底鎖定達標的波束，之後不論運行多久，都不會再產生額外的遺憾值。

第二種情境是「目標非可實現（Non-realizable）」，也就是使用者設定的 $\tau_r$ 過高，無論怎麼調整都無法達標。演算法在經歷有限的預期過渡期後，會自動退化回標準的 CTS 模式，並致力於逼近系統的最大物理極限。在此情境下，SAT-CTS 的標準遺憾值增長速度被證明為 $O((\log T)^2)$。這項雙軌保證確保了演算法在未知的網路環境中，無論目標設定是否合理，都能展現出最佳的適應力與數學最佳性。

DeepMIMO 模擬器中的動態通道與跨用戶公平性

為了驗證理論模型的實用性，研究團隊在配備 DeepMIMO 模擬器的多基地台、多使用者 MISO 系統中進行了實驗。該模擬器能生成符合現實物理條件的稀疏多徑通道向量（Sparse multipath channels），並採用擬靜態（Quasi-static）假設，即通道在單一時間槽內保持穩定，但在不同時間槽之間會發生動態變化。

實驗數據證實，由於具備明確的滿意度門檻，SAT-CTS 在降低「滿足型遺憾」方面的表現，始終優於標準的組合湯普森取樣（CTS）與組合信心上限（CUCB）等傳統基準演算法。它避免了因持續追求微小極大值而導致的波束頻繁切換。

在實際部署考量上，這種反饋效率極高的學習機制展現了優異的跨使用者公平性。即使在缺乏任何通道狀態知識的前提下，SAT-CTS 仍能為處於不同物理位置、面臨不同遮蔽條件的使用者，均衡地分配波束與速率資源，確保整體網路的服務品質（QoS）達標，為超低延遲控制頻道的應用提供了高度可行的實作藍圖。

當演算法放棄追求全局最佳解，轉而鎖定滿足服務品質的明確門檻時，就能在無需高昂探測成本下，極大化毫米波網路的早期吞吐量。

Abstract

We study downlink beam and rate adaptation in a multi-user mmWave MISO system where multiple base stations (BSs), each using analog beamforming from finite codebooks, serve multiple single-antenna user equipments (UEs) with a unique beam per UE and discrete data transmission rates. BSs learn about transmission success based on ACK/NACK feedback. To encode service goals, we introduce a satisficing throughput threshold $τ_r$ and cast joint beam and rate adaptation as a combinatorial semi-bandit over beam-rate tuples. Within this framework, we propose SAT-CTS, a lightweight, threshold-aware policy that blends conservative confidence estimates with posterior sampling, steering learning toward meeting $τ_r$ rather than merely maximizing. Our main theoretical contribution provides the first finite-time regret bounds for combinatorial semi-bandits with satisficing objective: when $τ_r$ is realizable, we upper bound the cumulative satisficing regret to the target with a time-independent constant, and when $τ_r$ is non-realizable, we show that SAT-CTS incurs only a finite expected transient outside committed CTS rounds, after which its regret is governed by the sum of the regret contributions of restarted CTS rounds, yielding an $O((\log T)^2)$ standard regret bound. On the practical side, we evaluate the performance via cumulative satisficing regret to $τ_r$ alongside standard regret and fairness. Experiments with time-varying sparse multipath channels show that SAT-CTS consistently reduces satisficing regret and maintains competitive standard regret, while achieving favorable average throughput and fairness across users, indicating that feedback-efficient learning can equitably allocate beams and rates to meet QoS targets without channel state knowledge.

Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits

毫米波通訊的波束對齊難題與無 CSI 挑戰

放棄完美極大值：多武裝海盜演算法的滿意度轉向

SAT-CTS 演算法設計與輕量化二元回饋機制

首創理論極限突破：滿足型遺憾與標準遺憾雙保證

DeepMIMO 模擬器中的動態通道與跨用戶公平性

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。