A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | AB | AC | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Mailing list: | Link to listserv | |||||||||||||||||||||||||||
2 | More information: | http://harp.ri.cmu.edu/reading-group/ | |||||||||||||||||||||||||||
3 | Meeting Time | Wednesdays, 1-2pm (Spring 2024) | |||||||||||||||||||||||||||
4 | Meeting formats | ||||||||||||||||||||||||||||
5 | Presentation | Deliver a prepared presentation of a paper (one paper can be presented by more than one person) | |||||||||||||||||||||||||||
6 | Speed Read | Speed read the paper for 30 mins and use the remaning time for discussion. | |||||||||||||||||||||||||||
7 | |||||||||||||||||||||||||||||
8 | |||||||||||||||||||||||||||||
9 | Format | Presenter/Contact Name | Presenter/Contact Email | Topic | Paper Name/Citation | Paper Link (email to organizers directly if not available) | |||||||||||||||||||||||
10 | January 17 | Speed read | collective | collective | IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human Supervisors | https://proceedings.mlr.press/v229/datta23a/datta23a.pdf | |||||||||||||||||||||||
11 | January 24 | Speed read | collective | collective | Implicit Behavior Cloning | https://arxiv.org/abs/2109.00137 | |||||||||||||||||||||||
12 | January 31 | Speed read | When Should We Prefer Offline Reinforcement Learning over Behavioral Cloning | https://openreview.net/pdf?id=AP1MKT37rJ | |||||||||||||||||||||||||
13 | February 7 | ||||||||||||||||||||||||||||
14 | February 14 | Speed read | Pranay | Diffusion World Model | https://arxiv.org/pdf/2402.03570.pdf | https://arxiv.org/pdf/2402.03570.pdf | |||||||||||||||||||||||
15 | February 21 | Presentation | Pranay | RLHF | Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback | Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback | |||||||||||||||||||||||
16 | February 28 | Speed read | Pranay | RLHF | Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback | Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback | |||||||||||||||||||||||
17 | Spring Break | March 6 | |||||||||||||||||||||||||||
18 | March 13 | ||||||||||||||||||||||||||||
19 | March 20 | Speed Read | Pranay | LLM | Are emegent properties of LLM a Mirage | Are emegent properties of LLM a Mirage | |||||||||||||||||||||||
20 | March 27 | Speed Read | The Perils of Trial-and-Error Reward Design: Misdesign through Overfitting and Invalid Task Specifications | https://ojs.aaai.org/index.php/AAAI/article/view/25733 | |||||||||||||||||||||||||
21 | April 3 | ||||||||||||||||||||||||||||
22 | April 10 | ||||||||||||||||||||||||||||
23 | April 17 | ||||||||||||||||||||||||||||
24 | April 24 | Talk | Tiffany Min | LLM/ Human motion | Situated Instruction Following | Will go on Arxiv soon | |||||||||||||||||||||||
25 | May 1 | ||||||||||||||||||||||||||||
26 | May 8 | Role playing - Direct Preference Optimization | |||||||||||||||||||||||||||
27 | May 15 | ||||||||||||||||||||||||||||
28 | |||||||||||||||||||||||||||||
29 | |||||||||||||||||||||||||||||
30 | |||||||||||||||||||||||||||||
31 | |||||||||||||||||||||||||||||
32 | |||||||||||||||||||||||||||||
33 | Papers People Want to Read | Add your name to support the motion | |||||||||||||||||||||||||||
34 | Brohan, A., Brown, N., Carbajal, J., Chebotar, Y., Chen, X., Choromanski, K., ... & Zitkovich, B. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv preprint arXiv:2307.15818. | Suresh | |||||||||||||||||||||||||||
35 | AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents | Suresh | |||||||||||||||||||||||||||
36 | Implicit Behavior Cloning | ||||||||||||||||||||||||||||
37 | Analyzing the Variety Loss in the Context of Probabilistic Trajectory Prediction | Abhijat | |||||||||||||||||||||||||||
38 | Self-Rewarding Language Models | Pranay | |||||||||||||||||||||||||||
39 | Diffusion World Model | Pranay | |||||||||||||||||||||||||||
40 | Data Distributional Properties Drive Emergent In-Context Learning in Transformers | Pranay | |||||||||||||||||||||||||||
41 | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | Pranay | |||||||||||||||||||||||||||
42 | Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback | Pranay | |||||||||||||||||||||||||||
43 | Direct Preference Optimization | Pranay | |||||||||||||||||||||||||||
44 | Are emegent properties of LLM a Mirage | Pranay | |||||||||||||||||||||||||||
45 | Unfamiliar Finetuning Examples Control How Language Models Hallucinate | Pranay | |||||||||||||||||||||||||||
46 | The Perils of Trial-and-Error Reward Design: Misdesign through Overfitting and Invalid Task Specifications | Henny | |||||||||||||||||||||||||||
47 | THE PITFALLS OF NEXT-TOKEN PREDICTION | Abhijat | |||||||||||||||||||||||||||
48 | |||||||||||||||||||||||||||||
49 | |||||||||||||||||||||||||||||
50 | |||||||||||||||||||||||||||||
51 | |||||||||||||||||||||||||||||
52 | |||||||||||||||||||||||||||||
53 | |||||||||||||||||||||||||||||
54 | |||||||||||||||||||||||||||||
55 | |||||||||||||||||||||||||||||
56 | |||||||||||||||||||||||||||||
57 | |||||||||||||||||||||||||||||
58 | |||||||||||||||||||||||||||||
59 | |||||||||||||||||||||||||||||
60 | |||||||||||||||||||||||||||||
61 | |||||||||||||||||||||||||||||
62 | |||||||||||||||||||||||||||||
63 | |||||||||||||||||||||||||||||
64 | |||||||||||||||||||||||||||||
65 | |||||||||||||||||||||||||||||
66 | |||||||||||||||||||||||||||||
67 | |||||||||||||||||||||||||||||
68 | |||||||||||||||||||||||||||||
69 | |||||||||||||||||||||||||||||
70 | |||||||||||||||||||||||||||||
71 | |||||||||||||||||||||||||||||
72 | |||||||||||||||||||||||||||||
73 | |||||||||||||||||||||||||||||
74 | |||||||||||||||||||||||||||||
75 | |||||||||||||||||||||||||||||
76 | |||||||||||||||||||||||||||||
77 | |||||||||||||||||||||||||||||
78 | |||||||||||||||||||||||||||||
79 | |||||||||||||||||||||||||||||
80 | |||||||||||||||||||||||||||||
81 | |||||||||||||||||||||||||||||
82 | |||||||||||||||||||||||||||||
83 | |||||||||||||||||||||||||||||
84 | |||||||||||||||||||||||||||||
85 | |||||||||||||||||||||||||||||
86 | |||||||||||||||||||||||||||||
87 | |||||||||||||||||||||||||||||
88 | |||||||||||||||||||||||||||||
89 | |||||||||||||||||||||||||||||
90 | |||||||||||||||||||||||||||||
91 | |||||||||||||||||||||||||||||
92 | |||||||||||||||||||||||||||||
93 | |||||||||||||||||||||||||||||
94 | |||||||||||||||||||||||||||||
95 | |||||||||||||||||||||||||||||
96 | |||||||||||||||||||||||||||||
97 | |||||||||||||||||||||||||||||
98 | |||||||||||||||||||||||||||||
99 | |||||||||||||||||||||||||||||
100 |