ICML2017における強化学習
RL-Tokyo #72
https://rl-tokyo.github.io/
@sotetsuk
この発表・資料の趣旨
ICML2017には自然言語系のワークショップでの発表で参加
ICML2017における強化学習
目次
強化学習関連トーク・セッション一覧
ホットトピック
ホットトピック(発表が多かった気がする話題)
トーク・セッションで触れられることが多かった話題について問題設定・アプローチをざっくりまとめました(注: 多分に個人的バイアスがあります・昨年比の増減等については考慮してません)
ソフト最適
例えば、Q学習ではmaxをベルマン作用素に使って目標値R + γ max Q(s, a)に近づけるようQ関数を学習するが、この作用素のmaxをlog-sum-expを使って定義する”ソフト(マックス)”な作用素を使ったQ学習 (Soft-Q) を提案する研究がいくつか登場した[2,3]。特に理論的な側面からの興味深さが際立つ。
ICML2017以外の文献(ただし何回か発表中で言及されていた)
階層性(オプション)
[3]から
探索の効率化
[1]のプレゼンから引用
[1]から引用
モデルベース深層強化学習
既存のDQNやA3Cといった有名な深層強化学習アルゴリズムは基本的にモデルフリーのアルゴリズムだが、今回はモデルベースの深層強化学習アルゴリズムがいくつか登場して目立っていた印象。
実用の観点からはプランニングが出来るようになると実用への大きな一歩になると感じる。プランニングの分かりやすい例としてはモデルが元々既知で推定する必要がない囲碁AIなどがある。
[1]のプレゼン資料から引用
End-to-end
[2]
[3]
学習時と異なる環境への汎化 (transfer/zero-shot)
[2]のプレゼン資料より
実用的な探索(安全・公平)
ヒトによる教示
[2]より引用
方策オフ型学習でのバイアス・バリアンス
Tutorial: Deep Reinforcement Learning, Decision Making and Control
Tutorial
深層強化学習チュートリアル。前半の基本的なところは方策勾配系と連続行動空間にとくに詳しくて分かりやすい。後半の発展的な話はPCLみたいなソフト最適の話や、逆強化学習はGANとの関係も。最後のモデルベースは知らない話題が多かったです。リンク先からぜひ一度ご確認下さい。
Reinforcement learning 1
Reinforcement learning 1
総括・感想
このセッションの背景知識の補足
バンディット問題のようにMDPでも探索・活用のトレードオフを取ってリグレットを考えたとき、リグレットが対数オーダー(?)で抑えられることが知られているアルゴリズム。名前から推察できるように”不確かなときは楽観的に”の原則(OFU原理) に基づいている
OFU原理に基づかず、ベイズ的にMDPの事後分布を仮定し学習するアルゴリズム(バンディットにおけるThompson samplingのMDP版のような感じ)
探索・活用のトレードオフは一旦考えずに環境の探索だけを効率的に行うという問題設定におけるアルゴリズム。探索終了までの計算量が多項式オーダーで抑えられることが知られている。改良版としてR-maxなども知られる。
ちなみに筆頭著者Osbandは同じセッション内でOFU-RLのミニマックスバウンドの話もプレゼンしていた
Reinforcement learning 2
Reinforcement learning 2
総括・感想
Reinforcement learning 3
Reinforcement learning 3
総括・感想
Reinforcement learning 4
Reinforcement learning 4
総括・感想
Reinforcement learning 5
Reinforcement learning 5
総括・感想
このセッションの背景知識の補足
Invited talk:Towards Reinforcement Learning in the Real World
Invited talk
DeepMindのRaia Hadsell氏から最近の発展について環境とアルゴリズムの観点から概説
Montezuma’s Revenge & 階層RL
マルチタスク & Continual learning
迷路 & Auxiliary tasks
StreetLearn
パルクール & 連続制御
Continuous control
Continuous control
総括・感想
Deep reinforcement learning 1
Deep reinforcement learning 1
総括・感想
論文リンク: http://proceedings.mlr.press/v70/ostrovski17a.html
YouTube1: http://youtu.be/T6iaa8Z4eyE
YouTube2: http://youtu.be/232tOUPKPoQ
YouTube3: http://youtu.be/kNyFygeUa2E
Deep reinforcement learning 2
Deep reinforcement learning 2
総括・感想
その他
まとめ・感想
まとめ・感想