PPO

定義:PPO[Proximal Policy Optimization]

PPO[Proximal Policy Optimization]は,強化学習におけるポリシー最適化[Policy Optimization]アルゴリズムの一種で,エージェントが環境内で最適な行動戦略を学習するための手法.

従来のポリシー勾配法の課題であった学習の不安定性や非効率性を改善し,ポリシーの更新を穏やかに制御することによって,より安定した学習を実現する.

このアルゴリズムは,クリップ手法によりポリシーの変更幅に制約を設けることで,大きな更新による学習の発散を防ぎ,効率的かつ安定的に最適なポリシーを見つけることができる.また,他の先進的なアルゴリズム[TRPO, DDPG等]よりも実装が簡単という特徴を持つ.

PPOでは以下のクリップ付き目的関数を使用する.\[L^{\text{CLIP}}(\theta) = \mathbb{E} \left[ \min \left( r_t(\theta) \cdot \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \cdot \hat{A}_t \right) \right]\]$r_t(\theta)$ は新旧ポリシーの確率比[importance ratio]を表し,$\pi_\theta(a_t | s_t)$ を新しいポリシーが選択した行動 $a_t$ の確率,$\pi_{\theta_\text{old}}(a_t | s_t)$ を古いポリシーが選択した行動 $a_t$ の確率として,次のように定義される.\[r_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_\text{old}}(a_t \mid s_t)}\]

確率比 $r_t(\theta)$ を導入することにより,重要度サンプリングを適用し,新しいポリシーの評価を効率的に行う.

また,$\hat{A}_t$ はアドバンテージ関数[Advantage Function]といい,$Q(s_t, a_t)$ を状態 $s_t$ で行動 $a_t$ をとった場合の累積報酬,$V(s_t)$を$s_t$ における期待累積報酬を表す状態価値関数[State Value Function]として,以下のように定義される.\[\hat{A}_t = Q(s_t, a_t) - V(s_t)\]

Mathematics is the language with which God has written the universe.





















OSI参照モデル ウォレスの積分 パラレログラム法則 偏極化恒等式 測度 可算加算性