| A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | AB | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | ||||||||||||||||||||||||||||
2 | ||||||||||||||||||||||||||||
3 | MS&E 338 | |||||||||||||||||||||||||||
4 | Paper presentation sign up 2015 | |||||||||||||||||||||||||||
5 | ||||||||||||||||||||||||||||
6 | First Name | Last Name | Stanford ID | Assignment | Choice 1 | Choice 2 | Choice 3 | Choice 4 | Choice 5 | Paper Number | Paper Name | |||||||||||||||||
7 | Imanol | Arrieta Ibarra | imanol | 4 | 3 | 2 | 7 | 5 | 1 | Sarah Filippi, Olivier Cappe, and Aurelien Garivier, Optimism in Reinforcement Learning and Kullback-Leibler Divergence | ||||||||||||||||||
8 | Camelia | Simoiu | csimoiu | 9 | 2 | 7 | 4 | 1 | 2 | Lihong Li and Michael Littman, Reducing Reinforcement Learning to KWIK Online Regression | ||||||||||||||||||
9 | Stephen | Ragain | sragain | 4 | 9 | 8 | 10 | 11 | 3 | Yasin Abbasi-Yadkori and Csaba Szepesvari, Regret Bounds for the Adaptive Control of Linear Quadratic Systems | ||||||||||||||||||
10 | Carlos | Riquelme | rikel | 7 | 9 | 10 | 1 | 6 | 4 | Vlodymyr Mnih, Koray Kavukcuogly, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller, Playing Atari with Deep Reinforcement Learning | ||||||||||||||||||
11 | Milind | Rao | milind | 3 | 6 | 11 | 2 | 10 | 5 | Peter Dayan and Kent Berridge, Model-Based and Model-Free Pavlovian Reward Learning | ||||||||||||||||||
12 | Rui | Fu | ruif | 6 | 4 | 9 | 7 | 10 | 6 | Richard Sutton, David McAllester, Satinder Singh, and Yishay Mansour, Policy Gradient Methods for Reinforcement Learning with Function Approximation ; and Vijay Konda and Jon Tsitsiklis, Actor Critic Algorithms | ||||||||||||||||||
13 | Zi | Yin | zyin | 1 | 8 | 7 | 9 | 12 | 7 | Aditya Gopalan and Shie Mannor, Thompson Sampling for Learning Parameterized MDPs | ||||||||||||||||||
14 | Mongia | Mihir | mmongia | 10 | 2 | 9 | 5 | 6 | 8 | Jason Pazis and Ronald Parr, PAC Optimal Exploration in Continuous Space Markov Decision Processes | ||||||||||||||||||
15 | Makhijani | Rahul | rahulmj | 6 | 2 | 3 | 7 | 9 | 9 | John Asmuth, Lihong Li, Michael Littman, Ali Nouri, and David Wingate, A Bayesian Sampling Approach to Exploration in Reinforcement Learning | ||||||||||||||||||
16 | 10 | Zico Kolter and Andrew Ng, Near-Bayesian Exploration in Polynomial Time | ||||||||||||||||||||||||||
17 | 11 | Odalric-Ambrym Maillard, Timothy Mann “How hard is my MDP?” The distribution-norm to the rescue | ||||||||||||||||||||||||||
18 | 12 | Hamid Redza Maei et al. Toward Off-Policy Learning Control with Function Approximation | ||||||||||||||||||||||||||
19 | 0 | 13 | Peter Bartlett and Ambuj Tewari, REGAL: A Regularization based Algorithm for Reinforcement Learning in Weakly Communicating MDPs | |||||||||||||||||||||||||
20 | ||||||||||||||||||||||||||||
21 | ||||||||||||||||||||||||||||
22 | ||||||||||||||||||||||||||||
23 | ||||||||||||||||||||||||||||
24 | ||||||||||||||||||||||||||||
25 | ||||||||||||||||||||||||||||
26 | ||||||||||||||||||||||||||||
27 | ||||||||||||||||||||||||||||
28 | ||||||||||||||||||||||||||||
29 | ||||||||||||||||||||||||||||
30 | ||||||||||||||||||||||||||||
31 | ||||||||||||||||||||||||||||
32 | ||||||||||||||||||||||||||||
33 | ||||||||||||||||||||||||||||
34 | ||||||||||||||||||||||||||||
35 | ||||||||||||||||||||||||||||
36 | ||||||||||||||||||||||||||||
37 | ||||||||||||||||||||||||||||
38 | ||||||||||||||||||||||||||||
39 | ||||||||||||||||||||||||||||
40 | ||||||||||||||||||||||||||||
41 | ||||||||||||||||||||||||||||
42 | ||||||||||||||||||||||||||||
43 | ||||||||||||||||||||||||||||
44 | ||||||||||||||||||||||||||||
45 | ||||||||||||||||||||||||||||
46 | ||||||||||||||||||||||||||||
47 | ||||||||||||||||||||||||||||
48 | ||||||||||||||||||||||||||||
49 | ||||||||||||||||||||||||||||
50 | ||||||||||||||||||||||||||||
51 | ||||||||||||||||||||||||||||
52 | ||||||||||||||||||||||||||||
53 | ||||||||||||||||||||||||||||
54 | ||||||||||||||||||||||||||||
55 | ||||||||||||||||||||||||||||
56 | ||||||||||||||||||||||||||||
57 | ||||||||||||||||||||||||||||
58 | ||||||||||||||||||||||||||||
59 | ||||||||||||||||||||||||||||
60 | ||||||||||||||||||||||||||||
61 | ||||||||||||||||||||||||||||
62 | ||||||||||||||||||||||||||||
63 | ||||||||||||||||||||||||||||
64 | ||||||||||||||||||||||||||||
65 | ||||||||||||||||||||||||||||
66 | ||||||||||||||||||||||||||||
67 | ||||||||||||||||||||||||||||
68 | ||||||||||||||||||||||||||||
69 | ||||||||||||||||||||||||||||
70 | ||||||||||||||||||||||||||||
71 | ||||||||||||||||||||||||||||
72 | ||||||||||||||||||||||||||||
73 | ||||||||||||||||||||||||||||
74 | ||||||||||||||||||||||||||||
75 | ||||||||||||||||||||||||||||
76 | ||||||||||||||||||||||||||||
77 | ||||||||||||||||||||||||||||
78 | ||||||||||||||||||||||||||||
79 | ||||||||||||||||||||||||||||
80 | ||||||||||||||||||||||||||||
81 | ||||||||||||||||||||||||||||
82 | ||||||||||||||||||||||||||||
83 | ||||||||||||||||||||||||||||
84 | ||||||||||||||||||||||||||||
85 | ||||||||||||||||||||||||||||
86 | ||||||||||||||||||||||||||||
87 | ||||||||||||||||||||||||||||
88 | ||||||||||||||||||||||||||||
89 | ||||||||||||||||||||||||||||
90 | ||||||||||||||||||||||||||||
91 | ||||||||||||||||||||||||||||
92 | ||||||||||||||||||||||||||||
93 | ||||||||||||||||||||||||||||
94 | ||||||||||||||||||||||||||||
95 | ||||||||||||||||||||||||||||
96 | ||||||||||||||||||||||||||||
97 | ||||||||||||||||||||||||||||
98 | ||||||||||||||||||||||||||||
99 | ||||||||||||||||||||||||||||
100 |