Multi-objective Reinforcement Learning With Augmented States Requires Rewards After Deployment

Peter Vamplew, Cameron Foale

View Original ↗
AI 導讀 technology AI 重要性 3/5

MORL 代理部署後仍需持續接收獎勵訊號,缺乏感測器將導致策略崩潰。

  • MORL 代理依賴擴充狀態,決策需結合環境狀態與歷史累積獎勵。
  • 代理部署後仍需持續接收獎勵,缺乏感測器將導致系統運作停擺。
  • 針對訊號中斷問題,應於訓練階段建立代理獎勵模型供部署期使用。

多目標強化學習(MORL)在處理非線性效用函數時高度依賴擴充狀態。最新 arXiv 研究指出,這種常規設計會導致代理模型在部署後仍需依賴獎勵訊號,一旦缺乏實體感測器回傳數據,即便停止學習也將無法正常運作。

非線性效用函數與擴充狀態架構的連動機制

多目標強化學習(MORL,多目標強化學習)是標準強化學習的延伸,專門處理環境中存在多個且相互衝突目標的任務。這類環境通常被定義為多目標馬可夫決策過程(MOMDP,多目標馬可夫決策過程),包含狀態空間、動作空間、機率轉移函數以及一個能給出 $d$ 個目標即時獎勵的向量獎勵函數。由於單一策略很難在所有目標上達到最佳,研究人員通常會引入一個效用函數 $u$,將多目標的策略價值映射為單一純量。

當這個效用函數呈現非線性特徵時,代理的決策邏輯就會產生根本性的改變。探討最佳化標準時,實務上會區分為純量化預期獎勵(SER,純量化預期獎勵)與預期純量化獎勵(ESR,預期純量化獎勵)兩種。SER 將效用函數應用於預期向量獎勵,適合策略會被重複執行多次並看重整體折衷的場景;ESR 則將效用函數放在期望值運算元之內,適用於需要確保單次回合內各目標折衷表現的任務。

在這些非線性條件下,代理在特定狀態下的最佳動作,不能僅取決於當前狀態,還必須參考代理到達該狀態前已經累積的獎勵。為了解決這個歷史依賴問題,學界廣泛使用名為擴充狀態(Augmented States)的技術。這項技術將代理觀察到的環境狀態,與過去所獲獎勵的折現總和進行拼接,形成一個全新的狀態表示法。透過將策略建立在擴充狀態上,代理就能動態調整後續行動,最大化非線性效用函數的價值。

擴充狀態導致 MORL 需持續接收部署期獎勵

儘管擴充狀態在 MORL 研究中被廣泛應用,多數文獻卻將焦點放在代理的訓練階段表現,忽略了一個極為重要的實務限制。由於 MORL 代理的策略運算直接依賴擴充狀態,這意味著代理在正式部署後,必須持續獲取獎勵訊號,以維持擴充狀態中「累積獎勵」元件的更新。

即使代理已經完成訓練、只是單純遵循固定策略而不再更新權重,這項需求依然存在。這種特性構成了 MORL 與傳統基於純量獎勵強化學習之間的重大分水嶺。在傳統強化學習中,一旦代理在靜態環境中完成訓練並停止更新策略,系統就不再需要計算或提供獎勵訊號。

部分應用場景對這項限制具備較高的容忍度。例如在電子遊戲、模擬器軟體或線上金融交易等純數位領域,訓練環境與部署環境完全相同。數位系統可以在代理部署後,繼續以零額外成本提供精確的獎勵機制,因此擴充狀態的設計不會造成太大的阻礙。

實體機器人與 Sim2Real 缺乏部署獎勵訊號

當應用領域轉向實體世界的代理設備時,部署期需持續提供獎勵的限制就會引發嚴重問題。以端到端機器人強化學習任務為例,無論是摺疊衣物、開門或處理流體,機器人主要透過視覺感知環境,但計算獎勵函數時往往需要額外的硬體設備,如熱影像儀、動作捕捉感測器或高精度加速度計。

在單一目標強化學習的情境下,開發者可以使用這些昂貴或繁瑣的感測器來輔助訓練,並在部署階段將其移除,因為推論期不再需要獎勵計算。然而,若採用依賴擴充狀態的 MORL 架構,移除這些儀器將導致代理無法建構完整的輸入狀態。

即使系統保留了這些感測器,硬體在長期部署中也有較高的故障風險。一旦負責觀測獎勵的感測器失效,即便環境觀測感測器運作正常,代理也無法繼續執行其學習到的策略。類似的挑戰也發生在模擬到現實(Sim2Real,模擬到現實)的強化學習轉換過程中,實體物理系統無法存取模擬器內的隱藏變數,連帶使得獎勵訊號中斷。

導入代理獎勵模型解決實體環境訊號缺乏

為了讓基於擴充狀態的 MORL 代理能夠在難以持續提供獎勵的實體領域中運作,研究人員提出透過機器學習建立一個代理獎勵模型。這個模型的核心任務是模仿原生 MOMDP 的獎勵函數,將環境的狀態轉移映射到 $d$ 維的獎勵向量上。

獎勵模型在強化學習領域並非全新概念,近期在基於人類回饋的強化學習(RLHF,基於人類回饋的強化學習)中扮演了關鍵角色。然而,傳統獎勵模型多半應用於訓練階段就缺乏真實獎勵的場景,必須從人類偏好或示範軌跡中反向推導獎勵函數,難度極高。

相較之下,本研究探討的 MORL 部署情境具有明顯的優勢。由於訓練階段仍可取得真實獎勵,開發者可以直接利用實際 MOMDP 中觀察到的狀態轉移與真實獎勵數據,透過監督式學習直接訓練出一個精準的獎勵模型,專門留作部署期使用。

SER 與 ESR 最佳化下的獎勵模型訓練差異

雖然引入獎勵模型可以解決訊號中斷的問題,但在不同的最佳化標準下,其應用方式有著細微卻關鍵的差異。在追求 SER 最佳化的任務中,擴充狀態原本就應基於當前回合中每個狀態轉移的「預期獎勵」折現總和。代理本來就需要學習一個預期獎勵模型來推導擴充狀態,這個模型自然可以在部署後繼續沿用。

然而,在追求 ESR 最佳化的任務中,策略的目標是最大化個別回合的效用,擴充狀態必須基於「實際累積」的獎勵。直觀的作法是用真實獎勵訓練代理,並在部署時用獎勵模型產生的代理獎勵來替代。但研究指出,這種非對稱的作法會導致嚴重的泛化失敗,因為代理在訓練期只見過包含極端真實數值的擴充狀態。

當代理在部署期遇到由平均預期值組成的未見擴充狀態時,其策略往往會選擇次佳動作,導致整體效用大幅下降。因此,如果開發團隊預知部署階段將無法取得真實獎勵,正確的作法是先用真實獎勵訓練出獎勵模型,接著在訓練 MORL 代理的階段,就完全使用該模型輸出的代理獎勵來構建擴充狀態。

部署期若缺乏真實獎勵,MORL 訓練時必須直接採用代理獎勵模型,以防策略崩潰。

Abstract

This research note identifies a previously overlooked distinction between multi-objective reinforcement learning (MORL), and more conventional single-objective reinforcement learning (RL). It has previously been noted that the optimal policy for an MORL agent with a non-linear utility function is required to be conditioned on both the current environmental state and on some measure of the previously accrued reward. This is generally implemented by concatenating the observed state of the environment with the discounted sum of previous rewards to create an augmented state. While augmented states have been widely-used in the MORL literature, one implication of their use has not previously been reported -- namely that they require the agent to have continued access to the reward signal (or a proxy thereof) after deployment, even if no further learning is required. This note explains why this is the case, and considers the practical repercussions of this requirement.