A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | AB | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Welcome to the Neurips "Challenges of Real-World Reinforcement Learning Workshop" poster sessions! Each submitted paper has an associated talk & paper link. There is also a gather.town set up here: https://neurips.gather.town/app/uvje3g9tFQHEzyfJ/rwrl where you can interact directly with paper authors. To do so, join the gather.town, and direct yourself to the zone with the poster spot written on the floor. Watch out, the presentations are split over two sessions, with half the papers in each session, so make sure you show up at the right time for the papers you care about! We will also be wandering around the space with "STAFF" in our name, feel free to ask us any questions :) | |||||||||||||||||||||||||||
2 | Paper Titles | Poster Session | Gather.town Zone | Paper | ||||||||||||||||||||||||
3 | Revisiting Design Choices in Proximal Policy Optimization | Talk Link | 1 | C | ||||||||||||||||||||||||
4 | Environment Shaping in Reinforcement Learning using State Abstraction | Talk Link | 1 | D | ||||||||||||||||||||||||
5 | Drift Detection in Episodic Data: Detect When Your Agent Starts Faltering | Talk Link | 1 | E | ||||||||||||||||||||||||
6 | Incorporating Healthcare Motivated Constraints in Restless Bandit Based Resource Allocation | Talk Link | 1 | F | ||||||||||||||||||||||||
7 | Efficient Reinforcement Learning via Self-supervised learning and Model-based methods | Talk Link | 1 | G | ||||||||||||||||||||||||
8 | Model-Based Meta-Reinforcement Learning for Flight with Suspended Payloads | Talk Link | 1 | H | ||||||||||||||||||||||||
9 | XT2: Training an X-to-Text Typing Interface through Online Learning from Implicit Feedback | Talk Link | 1 | I | ||||||||||||||||||||||||
10 | Lyapunov Barrier Policy Optimization | Talk Link | 1 | J | ||||||||||||||||||||||||
11 | Exploration in two-stage recommender systems | Talk Link | 1 | K | ||||||||||||||||||||||||
12 | Multi-Robot Deep Reinforcement Learning via Hierarchically Integrated Models | Talk Link | 1 | L | ||||||||||||||||||||||||
13 | Online Safety Assurance for Deep Reinforcement Learning | Talk Link | 1 | M | ||||||||||||||||||||||||
14 | Parrot: Data-Driven Behavioral Priors for Reinforcement Learning | Talk Link | 1 | N | ||||||||||||||||||||||||
15 | COG: Connecting New Skills to Past Experiences with Offline Reinforcement Learning | Talk Link | 1 | O | ||||||||||||||||||||||||
16 | Learning Movement Policies in Bayesian Stackelberg Markov Games for Adaptive Moving Target Defense | Talk Link | 1 | P | ||||||||||||||||||||||||
17 | MaxEnt RL and Robust Control | Talk Link | 1 | Q | ||||||||||||||||||||||||
18 | Model-Based Reinforcement Learning via Latent-Space Collocation | Talk Link | 1 | R | ||||||||||||||||||||||||
19 | Policy Learning Using Weak Supervision | Talk Link | 1 | S | ||||||||||||||||||||||||
20 | Handling Non-Stationary Experts in Inverse Reinforcement Learning: A Water System Control Case Study | Talk Link | 1 | T | ||||||||||||||||||||||||
21 | A Bayesian Approach to Learning Bandit Structure in Markov Decision Processes | Talk Link | 1 | U | ||||||||||||||||||||||||
22 | Model-Free Robust Reinforcement Learning with Linear Function Approximation | Talk Link | 1 | V | ||||||||||||||||||||||||
23 | Learning from Human Feedback: Challenges for Real-World Reinforcement Learning in NLP | Talk Link | 1 | W | ||||||||||||||||||||||||
24 | Constrained Q-learning for Batch Process Optimization | Talk Link | 1 | X | ||||||||||||||||||||||||
25 | RAIM: Reinforced Autonomous Intersection Management - AIM based on MADRL | Talk Link | 1 | Y | ||||||||||||||||||||||||
26 | On the Optimality of Policy Gradient for Coherent Risk | Talk Link | 2 | C | ||||||||||||||||||||||||
27 | Deep Bayesian Quadrature Policy Optimization | Talk Link | 2 | D | ||||||||||||||||||||||||
28 | Bridging the Imitation Gap by Adaptive Insubordination | Talk Link | 2 | E | ||||||||||||||||||||||||
29 | Learning with Safety Constraints: Sample Complexity of Reinforcement Learning for Constrained MDPs | Talk Link | 2 | F | ||||||||||||||||||||||||
30 | Challenges of Applying Deep Reinforcement Learning in Dynamic Dispatching | Talk Link | 2 | G | ||||||||||||||||||||||||
31 | A Geometric Perspective on Self-Supervised Policy Adaptation | Talk Link | 2 | H | ||||||||||||||||||||||||
32 | Provable Multi-Objective Reinforcement Learning with Generative Models | Talk Link | 2 | I | ||||||||||||||||||||||||
33 | Reinforcement Learning with Bayesian Classifiers: Efficient Skill Learning from Outcome Examples | Talk Link | 2 | J | ||||||||||||||||||||||||
34 | The Act of Remembering: A Study in Partially Observable RL (RWRL Report) | Talk Link | 2 | K | ||||||||||||||||||||||||
35 | Improving Human Decision-Making using Metalevel-RL and Bayesian Inference | Talk Link | 2 | L | ||||||||||||||||||||||||
36 | Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization under Model Uncertainty | Talk Link | 2 | M | ||||||||||||||||||||||||
37 | Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning | Talk Link | 2 | N | ||||||||||||||||||||||||
38 | DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies | Talk Link | 2 | O | ||||||||||||||||||||||||
39 | Explaining Conditions for Reinforcement Learning Behaviors from Real and Imagined Data | Talk Link | 2 | P | ||||||||||||||||||||||||
40 | Semi-Supervised Learning for Doubly Robust Offline Policy Evaluation | Talk Link | 2 | Q | ||||||||||||||||||||||||
41 | Reinforcement Learning Agents for Ubisoft’s Roller Champions | Talk Link | 2 | R | ||||||||||||||||||||||||
42 | Constraint Sampling Reinforcement Learning for Recommendation Systems | Talk Link | 2 | S | ||||||||||||||||||||||||
43 | TS-GLR: an Adaptive Thompson Sampling for the Switching Multi-Armed Bandit Problem | Talk Link | 2 | T | ||||||||||||||||||||||||
44 | Towards Exploiting Geometry and Time for Fast Off-Distribution Adaptation in Multi-Task Robot Learning | Talk Link | 2 | U | ||||||||||||||||||||||||
45 | The Challenges of Reinforcement Learning for Airline Seat Pricing | Talk Link | 2 | V | ||||||||||||||||||||||||
46 | The Cost of OPS | Talk Link | 2 | W | ||||||||||||||||||||||||
47 | ||||||||||||||||||||||||||||
48 | ||||||||||||||||||||||||||||
49 | ||||||||||||||||||||||||||||
50 | ||||||||||||||||||||||||||||
51 | ||||||||||||||||||||||||||||
52 | ||||||||||||||||||||||||||||
53 | ||||||||||||||||||||||||||||
54 | ||||||||||||||||||||||||||||
55 | ||||||||||||||||||||||||||||
56 | ||||||||||||||||||||||||||||
57 | ||||||||||||||||||||||||||||
58 | ||||||||||||||||||||||||||||
59 | ||||||||||||||||||||||||||||
60 | ||||||||||||||||||||||||||||
61 | ||||||||||||||||||||||||||||
62 | ||||||||||||||||||||||||||||
63 | ||||||||||||||||||||||||||||
64 | ||||||||||||||||||||||||||||
65 | ||||||||||||||||||||||||||||
66 | ||||||||||||||||||||||||||||
67 | ||||||||||||||||||||||||||||
68 | ||||||||||||||||||||||||||||
69 | ||||||||||||||||||||||||||||
70 | ||||||||||||||||||||||||||||
71 | ||||||||||||||||||||||||||||
72 | ||||||||||||||||||||||||||||
73 | ||||||||||||||||||||||||||||
74 | ||||||||||||||||||||||||||||
75 | ||||||||||||||||||||||||||||
76 | ||||||||||||||||||||||||||||
77 | ||||||||||||||||||||||||||||
78 | ||||||||||||||||||||||||||||
79 | ||||||||||||||||||||||||||||
80 | ||||||||||||||||||||||||||||
81 | ||||||||||||||||||||||||||||
82 | ||||||||||||||||||||||||||||
83 | ||||||||||||||||||||||||||||
84 | ||||||||||||||||||||||||||||
85 | ||||||||||||||||||||||||||||
86 | ||||||||||||||||||||||||||||
87 | ||||||||||||||||||||||||||||
88 | ||||||||||||||||||||||||||||
89 | ||||||||||||||||||||||||||||
90 | ||||||||||||||||||||||||||||
91 | ||||||||||||||||||||||||||||
92 | ||||||||||||||||||||||||||||
93 | ||||||||||||||||||||||||||||
94 | ||||||||||||||||||||||||||||
95 | ||||||||||||||||||||||||||||
96 | ||||||||||||||||||||||||||||
97 | ||||||||||||||||||||||||||||
98 | ||||||||||||||||||||||||||||
99 | ||||||||||||||||||||||||||||
100 |