[강화학습 단기집중 과정] 1주차 주간 과제
Email address *
제출자명 *
★회원가입/신청하실 때 작성한 이름을 작성해주세요. 띄어쓰기가 포함되거나 오타가 있으면 제출 처리에 오류가 발생할 수 있습니다.★
Your answer
참여 월/요일/시간대 (ex. 10월/화요/10시) *
온라인 모임이 없는 스터디는 스터디가 시작한 월만 적어주세요! (ex. 11월)
Your answer
1) 강화학습이란 무엇인가요? *
Your answer
2) 탐험과 활용 문제란 무엇인가요? *
Your answer
3) 정책이란 무엇인가요? *
Your answer
4) 보상 신호란 무엇인가요? *
Your answer
5) 가치 함수란 무엇인가요? *
Your answer
6) 모델이란 무엇인가요? *
Your answer
2일차 학습내용
Your answer
7) 다중 선택 문제(bandits problem)이란 무엇인가요? *
Your answer
8) 신뢰 상한 행동 선택(Upper Confidence Bound, UCB) 알고리즘의 공식 *
Your answer
9) 맥락적 다중 선택과 강화학습의 차이점에 대해서 설명해주세요. (p50 참조) *
Your answer
10) Bellman Expectation Equation 암기: v(s) (식 3.14) *
Your answer
11) Bellman Optimality Equation 암기: v*(s) (식 3.19) *
Your answer
12) Bellman Optimality Equation 암기: q*(s, a) (식 3.20) *
Your answer
13) Policy Evaluation에서 v(s) 업데이트 식은 Bellman Expectation Equation인가요? Bellman Optimality Equation 인가요? *
Your answer
14) Policy Improvement에서 pi(a|s) 업데이트 식 암기해서 적어주세요: (식 4.9) *
Your answer
15) Value Iteration v(s) 업데이트 식은 Bellman Expectation Equation인가요? Bellman Optimality Equation 인가요? *
Your answer
16) 일반화된 정책 반복(Generalized Policy Iteration, GPI)란 무엇인가요? *
Your answer
17) 5일차 튜토리얼을 따라한 코드 Colab 공유 링크 *
Google Colab Notebook 공유 링크 복사하는 법: https://bit.ly/2LbmtJ4
Your answer
이번주에 학습하시면서 추가로 궁금한 내용이 있으면 적어주세요 *
Your answer
A copy of your responses will be emailed to the address you provided.
Submit
Never submit passwords through Google Forms.
reCAPTCHA
This form was created inside of Studypie. Report Abuse