Trust Region Policy Optimization (TRPO)
手法のポイントは?
①Kakade & Langford (2002) では:
期待割引報酬を最大化したい
方策πをiterativeに更新。新しい方策の良さは次のよう(証明はAppendix A)
右辺のη(π~)をη(π)で置き換えても、πに十分近いところではηの一次近似と等しく、十分小さいステップ数なら改善できる。新しい方策を
との混合方策とすると、ηの下界が保証され、αを求めれば改善が保証される。
ここで とすると混合方策以外でも次が成立
下の式を用いて変形しておく。
Schulman et al. NIPS 2015; 19 Feb 2015 (v1), last revised 20 Apr 2017 (this version, v5) v5までに数式の変更等あるので注意
どんなもの?
改善が保証されたまま方策を直接最適化する。連続値の行動も扱え、DQNよりも良い成績を残すタスクもある。
どうやって有効だと検証した?
2D robot model(行動:連続)
既存手法を上回る
Atari(行動:離散)
一部でDQNなどを上回る
新規性・貢献・差分は何?
①Kakade & Langford (2002) を改善し、混合方策だけでなく一般の確率的方策について改善を保証し、②最適化の目的関数を更新量が小さくなりすぎないよう近似して実用的にした。
by @shiba24
②ηの改善は以下で保証されるが、これを実際に使用するとステップサイズが小さくなりすぎる。
より大きいステップサイズにするため、δを与えて信頼領域(Trust region)制約付きの最適化問題に帰着し、平均KL div. を用いて制約の数を減らす。
Lを書き下して期待値の形に直し、和をimportance samplingで置き換えると、最終的に以下のようになる。
期待値を、Single pathと
Vineの2種類による有限
サンプリングで近似し
Qを推定する。