Multi-objective Reinforcement Learning With Augmented States Requires Rewards After Deployment
MORL 代理部署後仍需持續接收獎勵訊號,缺乏感測器將導致策略崩潰。
- MORL 代理依賴擴充狀態,決策需結合環境狀態與歷史累積獎勵。
- 代理部署後仍需持續接收獎勵,缺乏感測器將導致系統運作停擺。
- 針對訊號中斷問題,應於訓練階段建立代理獎勵模型供部署期使用。
多目標強化學習(MORL)在處理非線性效用函數時高度依賴擴充狀態。最新 arXiv 研究指出,這種常規設計會導致代理模型在部署後仍需依賴獎勵訊號,一旦缺乏實體感測器回傳數據,即便停止學習也將無法正常運作。
非線性效用函數與擴充狀態架構的連動機制
多目標強化學習(MORL,多目標強化學習)是標準強化學習的延伸,專門處理環境中存在多個且相互衝突目標的任務。這類環境通常被定義為多目標馬可夫決策過程(MOMDP,多目標馬可夫決策過程),包含狀態空間、動作空間、機率轉移函數以及一個能給出 $d$ 個目標即時獎勵的向量獎勵函數。由於單一策略很難在所有目標上達到最佳,研究人員通常會引入一個效用函數 $u$,將多目標的策略價值映射為單一純量。
當這個效用函數呈現非線性特徵時,代理的決策邏輯就會產生根本性的改變。探討最佳化標準時,實務上會區分為純量化預期獎勵(SER,純量化預期獎勵)與預期純量化獎勵(ESR,預期純量化獎勵)兩種。SER 將效用函數應用於預期向量獎勵,適合策略會被重複執行多次並看重整體折衷的場景;ESR 則將效用函數放在期望值運算元之內,適用於需要確保單次回合內各目標折衷表現的任務。
在這些非線性條件下,代理在特定狀態下的最佳動作,不能僅取決於當前狀態,還必須參考代理到達該狀態前已經累積的獎勵。為了解決這個歷史依賴問題,學界廣泛使用名為擴充狀態(Augmented States)的技術。這項技術將代理觀察到的環境狀態,與過去所獲獎勵的折現總和進行拼接,形成一個全新的狀態表示法。透過將策略建立在擴充狀態上,代理就能動態調整後續行動,最大化非線性效用函數的價值。
擴充狀態導致 MORL 需持續接收部署期獎勵
儘管擴充狀態在 MORL 研究中被廣泛應用,多數文獻卻將焦點放在代理的訓練階段表現,忽略了一個極為重要的實務限制。由於 MORL 代理的策略運算直接依賴擴充狀態,這意味著代理在正式部署後,必須持續獲取獎勵訊號,以維持擴充狀態中「累積獎勵」元件的更新。
即使代理已經完成訓練、只是單純遵循固定策略而不再更新權重,這項需求依然存在。這種特性構成了 MORL 與傳統基於純量獎勵強化學習之間的重大分水嶺。在傳統強化學習中,一旦代理在靜態環境中完成訓練並停止更新策略,系統就不再需要計算或提供獎勵訊號。
部分應用場景對這項限制具備較高的容忍度。例如在電子遊戲、模擬器軟體或線上金融交易等純數位領域,訓練環境與部署環境完全相同。數位系統可以在代理部署後,繼續以零額外成本提供精確的獎勵機制,因此擴充狀態的設計不會造成太大的阻礙。
實體機器人與 Sim2Real 缺乏部署獎勵訊號
當應用領域轉向實體世界的代理設備時,部署期需持續提供獎勵的限制就會引發嚴重問題。以端到端機器人強化學習任務為例,無論是摺疊衣物、開門或處理流體,機器人主要透過視覺感知環境,但計算獎勵函數時往往需要額外的硬體設備,如熱影像儀、動作捕捉感測器或高精度加速度計。
在單一目標強化學習的情境下,開發者可以使用這些昂貴或繁瑣的感測器來輔助訓練,並在部署階段將其移除,因為推論期不再需要獎勵計算。然而,若採用依賴擴充狀態的 MORL 架構,移除這些儀器將導致代理無法建構完整的輸入狀態。
即使系統保留了這些感測器,硬體在長期部署中也有較高的故障風險。一旦負責觀測獎勵的感測器失效,即便環境觀測感測器運作正常,代理也無法繼續執行其學習到的策略。類似的挑戰也發生在模擬到現實(Sim2Real,模擬到現實)的強化學習轉換過程中,實體物理系統無法存取模擬器內的隱藏變數,連帶使得獎勵訊號中斷。
導入代理獎勵模型解決實體環境訊號缺乏
為了讓基於擴充狀態的 MORL 代理能夠在難以持續提供獎勵的實體領域中運作,研究人員提出透過機器學習建立一個代理獎勵模型。這個模型的核心任務是模仿原生 MOMDP 的獎勵函數,將環境的狀態轉移映射到 $d$ 維的獎勵向量上。
獎勵模型在強化學習領域並非全新概念,近期在基於人類回饋的強化學習(RLHF,基於人類回饋的強化學習)中扮演了關鍵角色。然而,傳統獎勵模型多半應用於訓練階段就缺乏真實獎勵的場景,必須從人類偏好或示範軌跡中反向推導獎勵函數,難度極高。
相較之下,本研究探討的 MORL 部署情境具有明顯的優勢。由於訓練階段仍可取得真實獎勵,開發者可以直接利用實際 MOMDP 中觀察到的狀態轉移與真實獎勵數據,透過監督式學習直接訓練出一個精準的獎勵模型,專門留作部署期使用。
SER 與 ESR 最佳化下的獎勵模型訓練差異
雖然引入獎勵模型可以解決訊號中斷的問題,但在不同的最佳化標準下,其應用方式有著細微卻關鍵的差異。在追求 SER 最佳化的任務中,擴充狀態原本就應基於當前回合中每個狀態轉移的「預期獎勵」折現總和。代理本來就需要學習一個預期獎勵模型來推導擴充狀態,這個模型自然可以在部署後繼續沿用。
然而,在追求 ESR 最佳化的任務中,策略的目標是最大化個別回合的效用,擴充狀態必須基於「實際累積」的獎勵。直觀的作法是用真實獎勵訓練代理,並在部署時用獎勵模型產生的代理獎勵來替代。但研究指出,這種非對稱的作法會導致嚴重的泛化失敗,因為代理在訓練期只見過包含極端真實數值的擴充狀態。
當代理在部署期遇到由平均預期值組成的未見擴充狀態時,其策略往往會選擇次佳動作,導致整體效用大幅下降。因此,如果開發團隊預知部署階段將無法取得真實獎勵,正確的作法是先用真實獎勵訓練出獎勵模型,接著在訓練 MORL 代理的階段,就完全使用該模型輸出的代理獎勵來構建擴充狀態。
部署期若缺乏真實獎勵,MORL 訓練時必須直接採用代理獎勵模型,以防策略崩潰。