2 of 79

この発表・資料の趣旨

ICML2017における強化学習研究の進展を概観する
ある程度基本的なことは知っている前提
各論の細かい話はしない（解説というよりは自分で興味のあるトピック・論文を探すための索引ぐらいに思って頂ければ）
トピックも多いですが、基本的に途中で止めていただいてOKです
（正直全然わかってないやつが結構ある&雰囲気で話してます）

ICML2017には自然言語系のワークショップでの発表で参加

3 of 79

ICML2017における強化学習

ホットトピック
下記トーク・セッション全てについて一つずつ概要説明（参加したものだけ）
まとめ・感想

強化学習関連トーク・セッション一覧

[参加] 8/6: Tutorial. Deep Reinforcement Learning, Decision Making, and Control
[参加] 8/7: Reinforcement learning 1
[参加] 8/7: Reinforcement learning 2
[参加] 8/7: Reinforcement learning 3
[参加] 8/7: Reinforcement learning 4
[不参加] 8/8: Test of TIme Award. Combining Online and Offline Knowledge in UCT
[参加] 8/8: Reinforcement learning 5
[参加] 8/9: Invited talk. Towards Reinforcement Learning in the Real World
[参加] 8/9: Continuous control
[参加] 8/9: Deep reinforcement learning 1
[参加] 8/9: Deep reinforcement learning 2
[不参加] 8/11: Reinforcement learning workshop

4 of 79

ホットトピック

5 of 79

ホットトピック（発表が多かった気がする話題）

トーク・セッションで触れられることが多かった話題について問題設定・アプローチをざっくりまとめました（注: 多分に個人的バイアスがあります・昨年比の増減等については考慮してません）

ソフト最適
階層性（オプション）
探索の効率化
モデルベース深層強化学習
End-to-end
学習時と異なる環境への汎化（transfer/zero-shot）
実用的な探索（安全・公平）
ヒトによる教示
方策オフ型学習でのバイアス・バリアンス

6 of 79

ソフト最適

例えば、Q学習ではmaxをベルマン作用素に使って目標値R + γ max Q(s, a)に近づけるようQ関数を学習するが、この作用素のmaxをlog-sum-expを使って定義する”ソフト（マックス）”な作用素を使ったQ学習 (Soft-Q) を提案する研究がいくつか登場した[2,3]。特に理論的な側面からの興味深さが際立つ。

最適化したい期待収益にエントロピーも考慮すると、Soft-Qから定まる最適方策と方策勾配法で最適化して求まる最適方策が一致する [4,5]

価値ベース・方策ベースの手法の統一的な見方が出来るという点でとても面白い

この作用素は縮小写像なので他の強化学習アルゴリズムと同様バナッハの不動点定理を使い収束性を示せる [3など]
ハイパーパラメータの極限を取ることでmax, meanの作用素を復元できる[3, 4]

[1] Tutorial: Deep Reinforcement Learning, Decision Making, and Control
[2] Reinforcement Learning with Deep Energy-Based Policies
[3] An Alternative Softmax Operator for Reinforcement Learning

ICML2017以外の文献（ただし何回か発表中で言及されていた）

[4] Nachum et al. (2017) Bridging the Gap Between Value and Policy Based Reinforcement Learning
[5] Schulman et al. (2017) Equivalence Between Policy Gradients and Soft Q-Learning

7 of 79

階層性（オプション）

Montezuma’s Revengeのように報酬がスパースな問題はいくつかのサブタスクのようなものに分割しないと解くのが難しい。この分割を自動で学習できるととても嬉しい
強化学習の文脈では、より階層が上の行動（のようなもの）をオプションと呼ぶことがある
基本的には報酬に依存しない情報だけから何らかの形で（当然ヒトの事前知識も使わず）中間的なサブゴールを獲得しにかかるアプローチになる

[1] Invited talk
[2] A Laplacian Framework for Option Discovery in Reinforcement Learning: Φ(s’) - Φ(s)にSVDをかけるとオプションが獲得できている
[3] FeUdal Networks for Hierarchical Reinforcement Learning: サブゴールを学習するモデルも一緒にe2eで方策勾配
[4] Unifying Task Specification in Reinforcement Learning: ソフト終端状態を定義するのでオプションの切り替えが滑らかに学習できるようになるのではないかと考えられる

[3]から

8 of 79

探索の効率化

Montezuma’s Revengeのような問題ではどうようにどう空間を系統立てて探索するかが重要になる。
（疑似）カウント系のアプローチと予測の確信度を使う系統のアプローチがある（ただどちらもある状態がどの程度起こりそうだと予測しているかを推定する形になり本質的には近いような気も少しする）

[1]は状態の予測の差を使う: ||Φ(s’) - Φ(s)||^2
[2]は状態のdensity model ρ(s)を使う: log ρ’(s) - log ρ(s)

ρ’はρからsを一度だけ観測したときのdensity model

[1]では報酬を使わずにマリオのプレイができてしまう

[1] Curiosity-driven Exploration by Self-supervised Prediction
[2] Count-Based Exploration with Neural Density Models

[1]のプレゼンから引用

[1]から引用

9 of 79

モデルベース深層強化学習

既存のDQNやA3Cといった有名な深層強化学習アルゴリズムは基本的にモデルフリーのアルゴリズムだが、今回はモデルベースの深層強化学習アルゴリズムがいくつか登場して目立っていた印象。

実用の観点からはプランニングが出来るようになると実用への大きな一歩になると感じる。プランニングの分かりやすい例としてはモデルが元々既知で推定する必要がない囲碁AIなどがある。

モデルフリー: 環境のモデルについては何も考慮せずに（最適）価値関数の推定や方策の最適化を直接行う
モデルベース: (1) 環境のモデルを推定し、(2) それを活用して価値推定や方策の最適化を行う（プランニング）

[1] Tutorial: Deep Reinforcement Learning, Decision Making, and Control
[2] The Predictron: End-To-End Learning and Planning
[3] Prediction and Control with Temporal Segment Models
[4] End-to-End Differentiable Adversarial Imitation Learning
[5] Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning

[1]のプレゼン資料から引用

10 of 79

End-to-end

言うまでもなく全てのモジュールを全部一貫して微分可能にして誤差逆伝搬法で全体を最適化する手法はいくつか散見された
RLはナイーブに考えると比較的途中で切断されやすい気もするので一層重要なのかもしれない

[1] End-to-End Differentiable Adversarial Imitation Learning
[2] The Predictron: End-To-End Learning and Planning
[3] FeUdal Networks for Hierarchical Reinforcement Learning
[4] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

[2]

[3]

11 of 79

学習時と異なる環境への汎化 (transfer/zero-shot)

シミュレータで学習して実機を動かしたいときなど、（似てはいるが）異なるMDPへの汎化を獲得しなければいけない状況はままある
外乱を加えたり[1]、異なるMDPへの汎化を学習するモジュールをend-to-endに組み込んで一緒に学習するといったアプローチがあった[2,3]

[1] Robust Adversarial Reinforcement Learning
[2] DARLA: Improving Zero-Shot Transfer in Reinforcement Learning
[3] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

[2]のプレゼン資料より

12 of 79

実用的な探索（安全・公平）

現実社会に強化学習アルゴリズムをデプロイする場合には、学習中の挙動に制限を書けたい場合がある

安全に探索して欲しい[3]（e.g., 壁にぶつかって欲しくない）
公平に探索してほしい[2]（e.g., 白人ばかり不公平に優先するのはやめて欲しい）

こうした意味で探索に何らかの形で制約をかけたりするアルゴリズムがいくつかあった

[1] Tutorial: Deep Reinforcement Learning, Decision Making, and Control
[2] Fairness in Reinforcement Learning
[3] Constrained Policy Optimization

13 of 79

ヒトによる教示

ヒトによる教示を学習に使いやすいようにしているような研究がいくつかあった
（階層的なゴール設定が必要な場合など）学習が難しい環境では無駄にアルゴリズムの設計を頑張るよりヒトと協調して動くアルゴリズムを考えたほうが実用的かもしれない

[1] Interactive Learning from Policy-Dependent Human Feedback
[2] Modular Multitask Reinforcement Learning with Policy Sketches
[3] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

[2]より引用

14 of 79

方策オフ型学習でのバイアス・バリアンス

これは別に昔からある話題だが今回もこういう系の話題でセッション一つ分くらいはあった
方策オフ型での学習では勾配や価値関数の推定でバイアスが生じる
これを修正するために重点サンプリング (IS) が行われる場合が多いが、（強化学習の場合はとくに）分散が大きくなってしまい学習が安定しない
ISよりもバイアスは出るがバリアンスは小さい推定量を提案する研究など関連研究は昔からたくさんあり、昨年も例えばDR (doubly robust) 推定量を使った研究などがいくつかあった。
今回もこうした研究は盛んに続いている

[1] Data-Efficient Policy Evaluation Through Behavior Policy Search
[2] Stochastic Variance Reduction Methods for Policy Evaluation
[3] Optimal and Adaptive Off-policy Evaluation in Contextual Bandits
[4] Consistent On-Line Off-Policy Evaluation

15 of 79

Tutorial: Deep Reinforcement Learning, Decision Making and Control

16 of 79

Tutorial

https://sites.google.com/view/icml17deeprl

深層強化学習チュートリアル。前半の基本的なところは方策勾配系と連続行動空間にとくに詳しくて分かりやすい。後半の発展的な話はPCLみたいなソフト最適の話や、逆強化学習はGANとの関係も。最後のモデルベースは知らない話題が多かったです。リンク先からぜひ一度ご確認下さい。

17 of 79

Reinforcement learning 1

18 of 79

Reinforcement learning 1

総括・感想

リグレットのバウンド系の話が多くて正直つらかった...
UCRL2・E^3を知ってないと意味がわからないセッションだったと思う

このセッションの背景知識の補足

UCRL2アルゴリズム

バンディット問題のようにMDPでも探索・活用のトレードオフを取ってリグレットを考えたとき、リグレットが対数オーダー(?)で抑えられることが知られているアルゴリズム。名前から推察できるように”不確かなときは楽観的に”の原則（OFU原理）に基づいている

PSRLアルゴリズム (PS = posterior sampling)

OFU原理に基づかず、ベイズ的にMDPの事後分布を仮定し学習するアルゴリズム（バンディットにおけるThompson samplingのMDP版のような感じ）

E^3アルゴリズム

探索・活用のトレードオフは一旦考えずに環境の探索だけを効率的に行うという問題設定におけるアルゴリズム。探索終了までの計算量が多項式オーダーで抑えられることが知られている。改良版としてR-maxなども知られる。

19 of 79

モチベーション: シミュレータで学習して実機を動かす場合などの環境の変化に対してロバストな方策を学習したい
学習時にシステムに効果的な外乱を加える”敵対的な”エージェントをもう一つ同時に学習することでよりロバストな方策を学習させる。定式化はミニマックスな目的関数になる。
TRPOをベースラインとして連続行動空間タスクで実験的に比較。

論文リンク: http://proceedings.mlr.press/v70/pinto17a.html

YouTube: https://www.youtube.com/watch?v=esxUd4tP2G8

20 of 79

価値反復+OFU原理 => UCBVI (upper confidence bound value iteration) を提案
このリグレットのバウンドはUCRL2より改善されており、十分大きいTについて
UCBVIはUCRL2と違い関数近似とも親和性がある

論文リンク: http://proceedings.mlr.press/v70/azar17a.html

21 of 79

モチベーション: 実応用の探索では例えば性差・人種に起因するバイアスに配慮する必要がある。具体的にはローンの貸付戦略を学習するのに、様々なタイプの人に貸してみて学習をするという問題設定が考えられる。黒人Aの方が（真の）返済能力が高いのに他の白人ばかりにずっと貸付をするのは避けるべき => なるべく早く”公平な”行動選択が出来る方策を獲得したい
公平性の定義: Q(s, a) > Q(s, a’) ならば p(s, a) > p(s, a’) （pは方策）
しかしながら実際にこの公平性を満たす行動選択できるように学習するまでナイーブには指数関数的なオーダーの計算量が必要になる。
E^3アルゴリズムをもとにFair-E^3アルゴリズムを提案。これは多項式オーダーで（緩和された）公平性を満たす行動選択が出来るようになる

論文リンク:http://proceedings.mlr.press/v70/jabbari17a.html

22 of 79

Fitted-Q iteration (FQI)の問題として、近似したQを何回も（同じ関数空間で）生成するのに相当な大きさの関数空間が必要で、設計が難しいという点がある
Q関数の代わりにベルマン誤差を関数近似した方が（学習が進むに連れて）関数近似は簡単になるはずなので、前のQkと近似したベルマン誤差を使ってQ関数を更新するBoosted Fitted-Qを提案
個人的にはDQNとFitted-Qの中間っぽい雰囲気がする

論文リンク:http://proceedings.mlr.press/v70/tosatto17a.html

23 of 79

PSRLの方がUCRL2のようなOFU-RLより実験的に良い性能を出す（という報告がある）背景を考察した研究
”stochastic optimism”を定義するとPSRLの（ベイズ的）リグレットはOFU-RLのリグレットに匹敵するのでは？
OFU-RL: 真のMDPの存在を背後に仮定。もっともらしいMDPの集合から一番性能の良いMDPと方策の組(M, μ)を求めサンプリングしまた集合を更新する
PSRL: 未知の真のMDPを事後分布で表現。事後分布からMDP Mを一つサンプリングし、そこで最適な方策μを求めサンプリングし、また事後分布を更新する

論文リンク: http://proceedings.mlr.press/v70/osband17a.html

ちなみに筆頭著者Osbandは同じセッション内でOFU-RLのミニマックスバウンドの話もプレゼンしていた

24 of 79

Reinforcement learning 2

25 of 79

Reinforcement learning 2

総括・感想

最初の3つはすべてAbbeelのラボから
座長はTutorialのS. Levine
前のセッションよりはその場でわかる感じの話がだいぶ多かった
このセッションだけでlog-sum-expをsoftと呼んで提案してる論文が2つある...

26 of 79

モチベーションは安全な探索

e.g., 連続行動空間で壁にぶつからないようにとか

安全な探索のために制約をつける
基本的にはTRPOに制約を足した感じ

論文リンク: http://proceedings.mlr.press/v70/achiam17a.html

Video: https://sites.google.com/view/softqlearning

GitHub: https://github.com/haarnoja/softqlearning

27 of 79

(1) エントロピー項を追加した期待収益を考える (2) log-sum-expな作用素を導入すると、これらから最適方策がexp((Q-V)/α)な形になることを示した
上記を踏まえlog-sum-expを作用素にしたSoft-Q学習を提案
Concurrent workとして以下に言及

PCL (Nachum et al. 2017)
PG = Soft-Q (Schulman et al. 2017)

論文リンク: http://proceedings.mlr.press/v70/haarnoja17a.html

VIdeo集: https://sites.google.com/view/softqlearning/home

GItHub: https://github.com/haarnoja/softqlearning

28 of 79

モデルベースの深層強化学習
環境のモデルの学習をseq2seqな問題だと考える（一度Zでエンコードする）
(X-, U-, U+)からX+を生成するモデルを学習。推論時にはデコーダだけ使う

En: Q(Z|X+, X-, U-, U+)
De: Q(X+|X-, U-, U+, Z)

モデルベースの制御も出来る

論文リンク: http://proceedings.mlr.press/v70/mishra17a.html

VIdeo: https://sites.google.com/site/temporalsegmentmodels/

29 of 79

Q学習の作用素はmax、SARSAの作用素はmeanを取るが、新しくmellowmaxという作用素を提案。これもSoft-Qと同じlog-sum-expの形の作用素
エントロピー正則化との繋がりに関する議論はSoftQやPCLと比べて明示的ではない印象だがlog-sum-expの作用素としての比較が詳しい

論文リンク: http://proceedings.mlr.press/v70/asadi17a.html

30 of 79

SNS等での情報の拡散の仕方から嘘の投稿を判断するという研究
投稿のされたタイミングをHawkes processでモデリングしている

論文リンク: http://proceedings.mlr.press/v70/farajtabar17a.html

31 of 79

Reinforcement learning 3

32 of 79

Reinforcement learning 3

総括・感想

深層な話が多かった
理論というよりは新し目のタスクで実験的に良い成果を出しましたという話が多い感じ

33 of 79

curiosity = prediction error!
curiosityだけ、rewardなしでマリオがプレイできてしまう

論文リンク: http://proceedings.mlr.press/v70/pathak17a.html

Video: http://pathak22.github.io/noreward-rl/

34 of 79

人間からのフィードバックでどう学習させるべきか検証した研究
人間をcriticだと思ってactor-critcをする: COACH (convergent actor-critc by human) を提案
Amazon Mechanical Turkを使って実験
実機でのデモも披露してた

論文リンク: http://proceedings.mlr.press/v70/macglashan17a.html

Video: https://vid.me/3h2s

35 of 79

GANベースのimitation learningをモデルベースにすることでend-to-endで学習できるようにした
Generatorは方策でDiscriminatorは状態・行動がどちらの方策から出てきたものかを識別する。
結果として（IRLのように報酬関数の推定をせずに）エキスパートの方策をマネできる

論文リンク: http://proceedings.mlr.press/v70/baram17a.html

36 of 79

POMDPのモデルを学習するという結構チャレンジングに思えるモデルベースの話
正直一ミリも分からない

論文リンク: http://proceedings.mlr.press/v70/katt17a.html

37 of 79

普通の転移学習はsourceのデータ（たくさん）とtargetのデータ（少量）で学習するがこれはzero-shotなのでtargetの環境を学習には一切使わない
一度複数のMDPで共通で使えるような状態に変換してから方策を学習しているみたい
DeepMind LabやJaco/MuJoCoで実験

論文リンク: http://proceedings.mlr.press/v70/higgins17a.html

38 of 79

Reinforcement learning 4

39 of 79

Reinforcement learning 4

総括・感想

Bellmare氏の発表はスライドが尋常じゃなくきれいだった
Bellmare氏の論文はどれも面白かった
この日4セッション目で聞くだけでも疲れた...

40 of 79

今の普通のMDPの定式化の仕方は環境の定式化と、学習する目的関数をうまく区別できない
割引率γを状態遷移に依存したもので置き換えることでこれを解決する
これによりエピソードタスクの終端を一般化してソフト終端 (soft termination) を考えることができる
ソフト終端を使うと例えば階層的RLで方策の切り替え部分が滑らかに学習できる

論文リンク:http://proceedings.mlr.press/v70/white17a.html

41 of 79

通常のベルマン方程式は期待値だけ考えるが、マルチモーダルなときなどを考えると良くないので分布で考えたい
DQNのアーキテクチャに組み込める形でQ関数の分布を推定できる手法を提案

論文リンク: http://proceedings.mlr.press/v70/bellemare17a.html

Video: https://www.youtube.com/watch?v=yFBwyPuO2Vg&feature=youtu.be

42 of 79

HierarchyといってもFeUdalとかのHierarchyとは少し毛色が違う
LMDPを提案。MDPが線形和で重なっていると考えて同時に解く。重みが変わることで報酬（ゴール）が変わったりする

論文リンク: http://proceedings.mlr.press/v70/saxe17a.html

43 of 79

Proto-value function (PVF) を利用してオプションを見つける
PVF: 価値関数を線形和で分解したもの
結局をSVDする感じになるっぽい
Montezuma’s Revengeで実験もして獲得されたオプションが重要なオブジェクトに対応していることを確認

論文リンク: http://proceedings.mlr.press/v70/machado17a.html

YouTube: https://youtu.be/2BVicx4CDWA

GitHub: https://github.com/mcmachado/options

44 of 79

自然言語によるおおまかな指令 (policy sketch) を与えて（複雑な）タスクを解く

論文リンク: http://proceedings.mlr.press/v70/andreas17a.html

GitHub: https://github.com/jacobandreas/psketch

45 of 79

Reinforcement learning 5

46 of 79

Reinforcement learning 5

総括・感想

基本的にはバイアス・バリアンス系の話が多かった。
聞いてるときは面白い気がしたけど見返すとちっともわからん...

このセッションの背景知識の補足

47 of 79

方策オフ型で方策評価をするには重点サンプリング (IS) を使って不偏推定量を求めることがあるが、しばしば分散が大きくなる
そこでパラメトライズされた挙動方策をISの重みの分散が小さくなるように学習する (Behavior policy gradient)

論文リンク: http://proceedings.mlr.press/v70/hanna17a.html

48 of 79

論文リンク: http://proceedings.mlr.press/v70/du17a.html

49 of 79

MDPではなくContextual banditの話
IS使った推定量はバイアス低いがバリアンスが高い
Minimax theoryの観点から理論検証。この観点からはISも（それまで”最適”でないと思われてきたが）”最適”といえるかも？DR (Doubly Robust) との比較も
これらの示唆から新しい推定量SWITCHを提案。ISとDRを使い分ける。

論文リンク: http://proceedings.mlr.press/v70/wang17a.html

50 of 79

オンライン更新での方策オフ型におけるTD学習における不動点は方策オン型学習のときと違う不動点に収束する（一致性がない）
今までのオンライン更新の方策オフ型TDの研究は（状態に関する）定常分布の差を考慮してない
共変量シフトを使って一致性を持つようにする

論文リンク: http://proceedings.mlr.press/v70/hallak17a.html

51 of 79

PACのような探索に関して深層RLとテーブル形式での理論の間に乖離がある。新しい環境CDP・指標Bellman rankを提案する。
これを踏まえたうえで理論的に良い保障があるアルゴリズムを提案した

論文リンク: http://proceedings.mlr.press/v70/jiang17c.html

52 of 79

Invited talk:Towards Reinforcement Learning in the Real World

53 of 79

Invited talk

DeepMindのRaia Hadsell氏から最近の発展について環境とアルゴリズムの観点から概説

Montezuma’s Revenge & 階層RL

FeUdal Networks for Hierarchical Reinforcement Learning

マルチタスク & Continual learning

迷路 & Auxliliary tasks

StreetLearn

論文は恐らくまだ未発表

パルクール & 連続制御

54 of 79

Montezuma’s Revenge & 階層RL

今回採択されたFeUdal Netsの話
Montezuma’s Revengeは報酬がスパース過ぎて普通のDQN等では解けない
サブゴールを決めるManagerとサブゴールを踏まえてタスクを解くWorkerの組み合わせ
うまく行ったときに学習されたサブゴールはMontezumaのハシゴや鍵といった特徴を捉えているように見える

FeUdal Networks for Hierarchical Reinforcement Learning

55 of 79

マルチタスク & Continual learning

Pongを学習したNNにさらにインベーダーを学習させると、Pongは解けなくなってしまう
同じPongでも画面に色やノイズを加えるとうまくプレイできない（人間にとっては影響がない）

Overcoming catastrophic forgetting in neural networks

忘れないよう正則化を書けながら学習する

Progressive Neural Networks

タスク毎のパラメータをバコッと追加する

Distral: Robust Multitask Reinforcement Learning

56 of 79

迷路 & Auxiliary tasks

3D迷路を解くタスク
基本はA3C
そのままより、報酬とは別の情報も目的に追加で加えた方が学習がうまくいく
Learning to Navigate in Complex Environments

Aux task1: Depth predictor（迷路で壁か先にいけるか？）
Aux task2: loop closure predictor

Reinforcement Learning with Unsupervised Auxiliary Tasks

Aux taskをヒトが教示することなくUnsupervisedに

57 of 79

StreetLearn

現実世界でのナビゲーション
Google StreetViewを環境にしたRL: StreetLearn
タクシーのナビゲーションタスクとかを解いてる
LSTM3つくらい使ってそれぞれ違う役割を持たせて解いている
パッと見のインパクトがすごい
（論文は恐らくまだ未発表）

58 of 79

パルクール & 連続制御

TRPO, PPO関連だがこのへんはある程度前提
Learning and Transfer of Modulated Locomotor Controllers

Synchronous updateで学習してるらしい

Emergence of Locomotion Behaviours in Rich Environments

下記動画がかなりウケてた

59 of 79

Continuous control

60 of 79

Continuous control

総括・感想

座長はまたLevine氏
後半3件はRLではなく制御っぽい話でついていけなかった（飛ばす）

61 of 79

連続行動空間の確率的方策では普通ガウス方策が使われる
ただ現実には物理的に取りうる値にしきい値があり、これによってバイアスがでる
そこでベータ分布を使ってこれを解決

論文リンク:http://proceedings.mlr.press/v70/chou17a.html

62 of 79

モデルベースとモデルフリーを組み合わせたロボット制御の話
Q関数を（モデルベース）+（モデルフリー - モデルベース）に分けて分散減らしてるっぽい？
ベイズ的な方策の更新がTRPO的な更新と一緒っぽい示唆があるっぽい？（Theorem 1）

論文リンク:http://proceedings.mlr.press/v70/chebotar17a.html

Video: https://sites.google.com/site/icml17pilqr/

63 of 79

Deep reinforcement learning 1

64 of 79

Deep reinforcement learning 1

総括・感想

セッション名にDeepが付いた瞬間参加者が3倍くらいになって会場がかなり狭くなった...（けどPredictronが終わったら結構な人が帰っていった）

65 of 79

psuedo-countの流れでのMontezuma’s Revengeの攻略
psuedo-countは基本的にdensity model ρ(x)の推定値から計算している
deinsty model ρ(x) をどうするか？

既存はCTS density model
これをPixelCNNで置き換えた (neural psuedo-count!)

論文リンク: http://proceedings.mlr.press/v70/ostrovski17a.html

YouTube1: http://youtu.be/T6iaa8Z4eyE

YouTube2: http://youtu.be/232tOUPKPoQ

YouTube3: http://youtu.be/kNyFygeUa2E

66 of 79

これもヒトの指示を踏まえて学習する系のタスク
トレーニング時とテスト時で推論による汎化が必要なタスクを考えている（テスト時には見たことのない指示が出る）
（推論による汎化）アナロジーを推定するパラメータと個別のタスクを学習するパラメータを別々に用意してend-to-endで学習している

論文リンク: http://proceedings.mlr.press/v70/oh17a.html

Video: https://sites.google.com/a/umich.edu/junhyuk-oh/task-generalization

67 of 79

マルチエージェントで学習すると他のエージェントの方策も変化するので（各エージェントから見ると）環境が変化してしまう
重点サンプリングしてバイアス減らして学習 (Multi-Agent Importance Sampling)
StarCraftで実験

論文リンク: http://proceedings.mlr.press/v70/foerster17b.html

68 of 79

モデルベースは1.モデルの構築 2. モデルの利用（プランニング）の2ステップだが、これを同時にend-to-endで行う.
まだMRPしか解けない（制御はできない）
λ混合した価値の予測ができたりと他の只のend-to-endな手法より趣がある気がする（？）

論文リンク: http://proceedings.mlr.press/v70/silver17a.html

69 of 79

過去数回分のパラメータを保存した上で平均しながら価値関数を更新する
こちらの方が価値推定がうまくいくので良いという主張
Double DQN同じように目標値の楽観的な推定が抑制できるらしい

論文リンク: http://proceedings.mlr.press/v70/anschel17a.html

70 of 79

Deep reinforcement learning 2

71 of 79

Deep reinforcement learning 2

総括・感想

前のセッションよりは人が減ってた。
最後なのでしんどかった
ニューラルって感じだった。メタ学習系がいくつか

72 of 79

階層的なサブゴールを自動で学習できたら嬉しいという話（Montezuma’s Revengeのように外部からの報酬がスパースなやつはサブゴールがないと学習できない）
サブゴールを学習する方策勾配とサブゴールをもとに方策を学習する方策勾配を２つ走らせてend-to-endに学習
（個人的には何故うまくいくのかあまり納得がいかない...）

論文リンク: http://proceedings.mlr.press/v70/vezhnevets17a.html

73 of 79

識別タスクにおいてNNを動的に決める（識別が難しければ次の層（図では列）に判断を後回しにしてさらに推論）
結果として最初には簡単な識別をして（手書き文字 vs 一般物体）、あとの方では難しい識別をするようになる
強化学習との関係は良くわからない

論文リンク: http://proceedings.mlr.press/v70/mcgill17a.html

74 of 79

AtariでDQNは人間より高いスコアを出しているとは言え学習の効率は人間に及ばない。なぜ？

Priori knowledge (transfer learning)
More efficient exploration
Episodic memory (Lengel and Dayan 2007)

Differentiable neural dictionary (DND) を導入し効率的に解く

論文リンク: http://proceedings.mlr.press/v70/pritzel17a.html

75 of 79

ニューラルなアーキテクチャをRLで探すやつはあるが、これはOptimizerを探す
ただ、OptimizerのOptimizerをどうするか考える必要があるのでは？という質問も...

論文リンク: http://proceedings.mlr.press/v70/bello17a.html

77 of 79

https://twitter.com/hayasick/status/895173720398016512

78 of 79

まとめ・感想

79 of 79

まとめ・感想

発表の感じを見る限り、日本ではまだ話題になることが少ない・解説資料を見ることが少ないような気がするアルゴリズムでも常識化しているものは多い

例えば連続行動空間ならとDDPG・TRPOなんかはもう常識という雰囲気

深層強化学習も研究の主眼がだんだんと難しい（が実用化に資する）ものに移ってきた感じがする

Model-free value-based , 離散行動空間 (e.g., DQN)
Model-free policy-based, 連続行動空間 (e.g., A3C, TRPO)
Model-based, 連続行動空間 (e.g., Predictron)

なんやかんや“Algorithms for RL”は結構いい本（訳本が2017/9に出版予定）

この本の内容を押さえていれば理論系でも背景が全く意味分からないということは少ない

ビデオがついてるものはやはり見栄えがいい

e.g., https://sites.google.com/view/softqlearning
DeepMindやOpenAIのように(arXiv, blog, YouTube, GitHub)の4点セットを付けないと中々注目を集めにくくなっているのかもしれない

ネタが豪快に被ってるのは他人事ながら胃が痛くなりそう

e.g., ソフト最適: Soft-Q/mellowmax/PCL（PCLはリジェクト...）

理論解析ゼロのDeep onlyものは問題設定か実験結果が相当芳しくないと厳しいように見える

1 of 79

2 of 79

3 of 79

4 of 79

5 of 79

6 of 79

7 of 79

8 of 79

9 of 79

10 of 79

11 of 79

12 of 79

13 of 79

14 of 79

15 of 79

16 of 79

17 of 79

18 of 79

19 of 79

20 of 79

21 of 79

22 of 79

23 of 79

24 of 79

25 of 79

26 of 79

27 of 79

28 of 79

29 of 79

30 of 79

31 of 79

32 of 79

33 of 79

34 of 79

35 of 79

36 of 79

37 of 79

38 of 79

39 of 79

40 of 79

41 of 79

42 of 79

43 of 79

44 of 79

45 of 79

46 of 79

47 of 79

48 of 79

49 of 79

50 of 79

51 of 79

52 of 79

53 of 79

54 of 79

55 of 79

56 of 79

57 of 79

58 of 79

59 of 79

60 of 79

61 of 79

62 of 79

63 of 79

64 of 79

65 of 79

66 of 79

67 of 79

68 of 79

69 of 79

70 of 79

71 of 79

72 of 79

73 of 79

74 of 79

75 of 79

76 of 79

77 of 79

78 of 79

79 of 79