$H_2/H_{\infty}$ Control for Stochastic Differential Systems with Partial Observation
湖州師範大學團隊首次在部分觀測線性隨機系統中統一解決 H2/H∞ 混合控制問題,Nash 均衡由耦合 Riccati 方程確定,以四旋翼無人機驗證。
- 部分觀測打破傳統 H2/H∞ 確定等效原理,論文以非零和微分博弈重新建模使問題可解。
- 卡爾曼濾波協方差方程獨立於控制策略求解,這一性質是類分離結構成立的關鍵前提。
- Nash 均衡以「估計量替代真實狀態」的閉環結構呈現,存在性等價於耦合微分 Riccati 方程可解性。
當控制器只能依賴帶噪聲的局部觀測信號、無法獲取系統完整狀態時,H2/H∞ 混合控制的確定等效原理(certainty equivalence principle)就會失效。湖州師範大學三人團隊在 2026 年 4 月的 arXiv 預印本中,借助卡爾曼濾波結合非零和微分博弈框架,首次在一般線性隨機系統的部分觀測情境下建立了統一的 H2/H∞ 控制理論,並以四旋翼無人機飛控場景驗證其有效性。
部分觀測如何使確定等效原理失效
H2 控制(H₂ control,最小化對白噪聲或瞬態干擾的響應、優化動態性能與能源效率)與 H∞ 控制(H∞ control,保證對最壞情況外部干擾的魯棒穩定性)是現代控制理論的兩大核心範式。混合 H2/H∞ 控制旨在二者之間尋求折衷:在滿足指定干擾衰減水平 γ > 0(H∞ 魯棒性約束)的前提下,最小化輸出能量(H2 代價)。在全狀態信息假設下,這一問題已有成熟研究——Chen 和 Zhang 最早將其推廣至含狀態相關噪聲的隨機系統,此後在馬爾可夫跳變系統、均場系統等分支都有豐富成果。
然而,全狀態可及性在許多工程場景中根本不現實。金融工程中資產價格遵循隱藏狀態動力學;網絡控制系統中傳感器只能提供帶噪聲的局部讀數;大規模種群動力學中完整個體狀態無從獲取。控制器在這類場景下只能依靠觀測過程 y(t) 推斷系統狀態,進入「部分觀測隨機最優控制」領域。
部分觀測問題的標準工具是分離原理(separation principle):將最優反饋控制拆解為卡爾曼濾波(最優狀態估計)與 LQR(最優調節器)兩個獨立子問題。但一旦引入 H∞ 魯棒性約束,分離結構被破壞——最優控制 u 依賴最壞情況干擾 v,而 v 又依賴 u,兩者在博弈中相互耦合。這正是本文需要克服的核心障礙。
非零和微分博弈:控制器與干擾的代價耦合
論文採用非零和微分博弈(nonzero-sum differential game)框架建模,這一視角最早由 Limebeer 等人在 1994 年用於確定性系統的 H2/H∞ 問題。雙玩家博弈中,控制器 u 試圖最小化 H2 代價函數 J₂(輸出能量的期望積分),干擾 v 則試圖最大化其對系統的影響,即最小化 J₁ = 𝔼∫₀ᵀ [γ²|v(t)|² − |z(t)|²] dt。
在部分觀測框架下,兩個博弈玩家都只能基於觀測過濾域 𝕐 = {𝒴_t} 制定策略——控制策略和干擾策略都必須適應於由觀測過程 y(t) 生成的自然過濾,而不能直接使用真實狀態 x(t)。這一「過濾域約束」是問題的關鍵:Nash 均衡的存在性分析必須在觀測適應的策略空間中進行,全信息情形下的狀態反饋結果無法直接搬用。
論文的目標是找到閉環 Nash 均衡策略 (u, v),同時滿足:給定 u,v 是最壞情況干擾且 H∞ 魯棒性條件 ||L|| < γ 成立;給定 v,u 最小化 H2 代價 J₂。兩個條件同時達立的策略對即為本問題的解。
卡爾曼濾波推導:創新過程驅動的最優估計方程
在解決博弈問題之前,論文需先建立部分觀測下的最優濾波方程。系統狀態 x(t) 服從由兩個獨立布朗運動(Brownian motion)驅動的線性隨機微分方程(SDE),觀測過程 y(t) 通過帶噪聲的線性觀測方程給出,最優狀態估計定義為條件期望 x̂(t) = 𝔼[x(t)|𝒴_t]。
論文引入「創新過程(innovation process)」I(t) = y(t) − ∫₀ᵗ [E(s)x̂(s) + β(s)] ds,它是實際觀測與基於當前估計的預測觀測之差,捕捉了觀測信號中「新鮮」的信息增量。通過 Fujisaki-Kallianpur-Kunita 定理,最優估計的演化被表示為由創新過程驅動的 SDE。濾波增益矩陣包含兩項:Σ(t)E(t)ᵀH(t)⁻¹(與估計誤差協方差 Σ 相關)和 C(t)F(t)⁻¹(捕捉狀態噪聲與觀測噪聲的交叉相關)。關鍵之處在於,協方差 Σ(t) 滿足的 Riccati 方程不依賴控制策略——這為類分離結構的成立提供了理論支點。
正交分解(orthogonal decomposition)保證 𝔼|x|² = 𝔼|x̂|² + 𝔼|x̃|²,使 H2 代價函數可分解為基於估計量的「可控部分」與不依賴控制的「固有不確定性部分」,為後續的博弈分析打下基礎。
隨機有界實引理與耦合 Riccati 方程求解
論文的核心技術貢獻是在部分觀測框架下建立「隨機有界實引理(Stochastic Bounded Real Lemma)」——這是 H∞ 控制的基本工具,其作用是將抽象的「算子範數 ||L|| < γ」轉化為可操作的 Riccati 方程可解性條件(充要條件)。在部分觀測環境中,這一引理的建立需要謹慎處理估計誤差 x̃(t) 與控制作用的交叉項,整體推導比全信息情形更為精細。
Nash 均衡的存在性最終歸結為一組耦合微分 Riccati 方程的可解性。論文給出的均衡策略具有類分離結構:最優控制 u(t) = U(t)x̂(t) + U₀(t),最壞干擾 v(t) = V(t)x̂(t) + V₀(t),其中反饋增益矩陣 U(t)、V(t) 由耦合 Riccati 方程確定,仿射修正項 U₀(t)、V₀(t) 由相應倒向隨機微分方程(backward SDE)確定。這個結構與全信息情形高度一致,區別僅在於以最優估計 x̂(t) 替代真實狀態 x(t)——但在部分觀測 H2/H∞ 問題中嚴格論證此類分離性質,本身即是不平凡的理論工作。
四旋翼無人機數值驗證:抗大氣擾動與追蹤精度並達
論文以四旋翼無人機(quadrotor UAV)的縱向動力學控制為數值算例。具體場景是在大氣擾動(風陣 wind gusts)下同時保證飛行追蹤精度(H2 性能)和抗干擾魯棒性(H∞ 性能)。系統的線性化縱向動力學涵蓋位置、速度、俯仰角等狀態分量,控制輸入為推力與俯仰力矩,觀測過程模擬帶傳感器偏差的局部測量(IMU、GPS)。系統噪聲 C dW(t) 對應機械振動和隨機陣風,仿射項 b(t) 和 β(t) 分別模擬固定風速偏移與傳感器偏置。
與現有無人機控制研究相比,Qi 和 Zhao 的 LMI 方法、Hui 等人的 H∞ 加兩階段 MPC 方案,以及 Hasanlu 等人的離散 H∞ 策略,均假設全狀態可及或僅處理單一性能指標。本文框架在部分觀測與混合 H2/H∞ 性能同時存在的場景下,提供了首個統一的理論解法。數值模擬結果表明,通過求解耦合 Riccati 方程得到的閉環策略,能夠在最壞情況干擾下同時滿足預設的 γ 衰減水平與最小化 H2 代價。
部分觀測 H2/H∞ 問題首次通過卡爾曼估計嵌入非零和博弈框架得到統一解,Nash 均衡以耦合 Riccati 方程刻畫的類分離結構呈現,為無人機等工程系統提供理論依據。