$H_2/H_{\infty}$ Control for Stochastic Differential Systems with Partial Observation

Changwang Xiao, Nan Yang, Qingxin Meng

View Original ↗
AI 導讀 technology general 重要性 2/5

湖州師範大學團隊首次在部分觀測線性隨機系統中統一解決 H2/H∞ 混合控制問題,Nash 均衡由耦合 Riccati 方程確定,以四旋翼無人機驗證。

  • 部分觀測打破傳統 H2/H∞ 確定等效原理,論文以非零和微分博弈重新建模使問題可解。
  • 卡爾曼濾波協方差方程獨立於控制策略求解,這一性質是類分離結構成立的關鍵前提。
  • Nash 均衡以「估計量替代真實狀態」的閉環結構呈現,存在性等價於耦合微分 Riccati 方程可解性。

當控制器只能依賴帶噪聲的局部觀測信號、無法獲取系統完整狀態時,H2/H∞ 混合控制的確定等效原理(certainty equivalence principle)就會失效。湖州師範大學三人團隊在 2026 年 4 月的 arXiv 預印本中,借助卡爾曼濾波結合非零和微分博弈框架,首次在一般線性隨機系統的部分觀測情境下建立了統一的 H2/H∞ 控制理論,並以四旋翼無人機飛控場景驗證其有效性。

部分觀測如何使確定等效原理失效

H2 控制(H₂ control,最小化對白噪聲或瞬態干擾的響應、優化動態性能與能源效率)與 H∞ 控制(H∞ control,保證對最壞情況外部干擾的魯棒穩定性)是現代控制理論的兩大核心範式。混合 H2/H∞ 控制旨在二者之間尋求折衷:在滿足指定干擾衰減水平 γ > 0(H∞ 魯棒性約束)的前提下,最小化輸出能量(H2 代價)。在全狀態信息假設下,這一問題已有成熟研究——Chen 和 Zhang 最早將其推廣至含狀態相關噪聲的隨機系統,此後在馬爾可夫跳變系統、均場系統等分支都有豐富成果。

然而,全狀態可及性在許多工程場景中根本不現實。金融工程中資產價格遵循隱藏狀態動力學;網絡控制系統中傳感器只能提供帶噪聲的局部讀數;大規模種群動力學中完整個體狀態無從獲取。控制器在這類場景下只能依靠觀測過程 y(t) 推斷系統狀態,進入「部分觀測隨機最優控制」領域。

部分觀測問題的標準工具是分離原理(separation principle):將最優反饋控制拆解為卡爾曼濾波(最優狀態估計)與 LQR(最優調節器)兩個獨立子問題。但一旦引入 H∞ 魯棒性約束,分離結構被破壞——最優控制 u 依賴最壞情況干擾 v,而 v 又依賴 u,兩者在博弈中相互耦合。這正是本文需要克服的核心障礙。

非零和微分博弈:控制器與干擾的代價耦合

論文採用非零和微分博弈(nonzero-sum differential game)框架建模,這一視角最早由 Limebeer 等人在 1994 年用於確定性系統的 H2/H∞ 問題。雙玩家博弈中,控制器 u 試圖最小化 H2 代價函數 J₂(輸出能量的期望積分),干擾 v 則試圖最大化其對系統的影響,即最小化 J₁ = 𝔼∫₀ᵀ [γ²|v(t)|² − |z(t)|²] dt。

在部分觀測框架下,兩個博弈玩家都只能基於觀測過濾域 𝕐 = {𝒴_t} 制定策略——控制策略和干擾策略都必須適應於由觀測過程 y(t) 生成的自然過濾,而不能直接使用真實狀態 x(t)。這一「過濾域約束」是問題的關鍵:Nash 均衡的存在性分析必須在觀測適應的策略空間中進行,全信息情形下的狀態反饋結果無法直接搬用。

論文的目標是找到閉環 Nash 均衡策略 (u, v),同時滿足:給定 u,v 是最壞情況干擾且 H∞ 魯棒性條件 ||L|| < γ 成立;給定 v,u 最小化 H2 代價 J₂。兩個條件同時達立的策略對即為本問題的解。

卡爾曼濾波推導:創新過程驅動的最優估計方程

在解決博弈問題之前,論文需先建立部分觀測下的最優濾波方程。系統狀態 x(t) 服從由兩個獨立布朗運動(Brownian motion)驅動的線性隨機微分方程(SDE),觀測過程 y(t) 通過帶噪聲的線性觀測方程給出,最優狀態估計定義為條件期望 x̂(t) = 𝔼[x(t)|𝒴_t]。

論文引入「創新過程(innovation process)」I(t) = y(t) − ∫₀ᵗ [E(s)x̂(s) + β(s)] ds,它是實際觀測與基於當前估計的預測觀測之差,捕捉了觀測信號中「新鮮」的信息增量。通過 Fujisaki-Kallianpur-Kunita 定理,最優估計的演化被表示為由創新過程驅動的 SDE。濾波增益矩陣包含兩項:Σ(t)E(t)ᵀH(t)⁻¹(與估計誤差協方差 Σ 相關)和 C(t)F(t)⁻¹(捕捉狀態噪聲與觀測噪聲的交叉相關)。關鍵之處在於,協方差 Σ(t) 滿足的 Riccati 方程不依賴控制策略——這為類分離結構的成立提供了理論支點。

正交分解(orthogonal decomposition)保證 𝔼|x|² = 𝔼|x̂|² + 𝔼|x̃|²,使 H2 代價函數可分解為基於估計量的「可控部分」與不依賴控制的「固有不確定性部分」,為後續的博弈分析打下基礎。

隨機有界實引理與耦合 Riccati 方程求解

論文的核心技術貢獻是在部分觀測框架下建立「隨機有界實引理(Stochastic Bounded Real Lemma)」——這是 H∞ 控制的基本工具,其作用是將抽象的「算子範數 ||L|| < γ」轉化為可操作的 Riccati 方程可解性條件(充要條件)。在部分觀測環境中,這一引理的建立需要謹慎處理估計誤差 x̃(t) 與控制作用的交叉項,整體推導比全信息情形更為精細。

Nash 均衡的存在性最終歸結為一組耦合微分 Riccati 方程的可解性。論文給出的均衡策略具有類分離結構:最優控制 u(t) = U(t)x̂(t) + U₀(t),最壞干擾 v(t) = V(t)x̂(t) + V₀(t),其中反饋增益矩陣 U(t)、V(t) 由耦合 Riccati 方程確定,仿射修正項 U₀(t)、V₀(t) 由相應倒向隨機微分方程(backward SDE)確定。這個結構與全信息情形高度一致,區別僅在於以最優估計 x̂(t) 替代真實狀態 x(t)——但在部分觀測 H2/H∞ 問題中嚴格論證此類分離性質,本身即是不平凡的理論工作。

四旋翼無人機數值驗證:抗大氣擾動與追蹤精度並達

論文以四旋翼無人機(quadrotor UAV)的縱向動力學控制為數值算例。具體場景是在大氣擾動(風陣 wind gusts)下同時保證飛行追蹤精度(H2 性能)和抗干擾魯棒性(H∞ 性能)。系統的線性化縱向動力學涵蓋位置、速度、俯仰角等狀態分量,控制輸入為推力與俯仰力矩,觀測過程模擬帶傳感器偏差的局部測量(IMU、GPS)。系統噪聲 C dW(t) 對應機械振動和隨機陣風,仿射項 b(t) 和 β(t) 分別模擬固定風速偏移與傳感器偏置。

與現有無人機控制研究相比,Qi 和 Zhao 的 LMI 方法、Hui 等人的 H∞ 加兩階段 MPC 方案,以及 Hasanlu 等人的離散 H∞ 策略,均假設全狀態可及或僅處理單一性能指標。本文框架在部分觀測混合 H2/H∞ 性能同時存在的場景下,提供了首個統一的理論解法。數值模擬結果表明,通過求解耦合 Riccati 方程得到的閉環策略,能夠在最壞情況干擾下同時滿足預設的 γ 衰減水平與最小化 H2 代價。

部分觀測 H2/H∞ 問題首次通過卡爾曼估計嵌入非零和博弈框架得到統一解,Nash 均衡以耦合 Riccati 方程刻畫的類分離結構呈現,為無人機等工程系統提供理論依據。

Abstract

This paper investigates the $H_{2}/H_{\infty}$ control problem for linear stochastic differential systems under partial observation. Unlike existing studies that assume full state accessibility, we consider the scenario where the controller has access only to an observation process. The objective is to design a controller that balances the $H_2$ performance criterion with the $H_\infty$ robustness requirement under worst-case disturbances, formulated as a nonzero-sum differential game. Using the Kalman filtering method, we derive the corresponding optimal filtering equation. Furthermore, a Stochastic Bounded Real Lemma under the partial observation framework is established, providing necessary and sufficient conditions for the $H_\infty$ robustness constraint. We also show the connection between the existence of a Nash equilibrium and the solvability of the cross-coupled Riccati equations, and illustrate the effectiveness of the proposed approach through a numerical example involving an unmanned aerial vehicle (UAV).