인공지능
Planning & Learning
강원대학교 컴퓨터공학과 최우혁
지난 시간에
2
지난 시간에
3
강의 순서
4
이번 시간에…
5
Model-Based Reinforcement Learning
6
(Recap) 동적 계획법 vs. 강화 학습
Model-Based Reinforcement Learning
7
(Recap) 동적 계획법 vs. 강화 학습
Model-Based Reinforcement Learning
8
Model-Based + Reinforcement Learning?
Model-Based Reinforcement Learning
9
Planning vs. Learning
Model-Based Reinforcement Learning
10
Planning vs. Learning
Model-Based Reinforcement Learning
11
Planning vs. Learning
Model-Based Reinforcement Learning
12
Simple Model-Based RL: Q-Planning
Model-Based Reinforcement Learning
13
환경에서 얻는 실제 경험 대신, 모델이 제공하는 경험으로 가치 함수를 업데이트
Rough Categories of Model-Based RL
Model-Based Reinforcement Learning
14
Rough Categories of Model-Based RL
Model-Based Reinforcement Learning
15
Rough Categories of Model-Based RL
Model-Based Reinforcement Learning
16
Experience Sampling
17
Dyna-Q
Experience Sampling
18
Dyna-Q: Pseudocode
Experience Sampling
19
Model: 주어진 상태-행동에 대해,
관측된 다음 상태-보상의 쌍을 저장하는 배열
Learning: 실제 경험으로
가치 함수 학습
Planning: 무작위로 선택된 행동-상태에 대해 저장된 다음 상태-보상으로 가치 함수를 학습
Q-Learning vs. Dyna-Q
Experience Sampling
20
Q-Learning vs. Dyna-Q
Experience Sampling
21
Dealing with Incorrect Model
Experience Sampling
22
Dealing with Incorrect Model
Experience Sampling
23
Dealing with Incorrect Model
Experience Sampling
24
Dealing with Incorrect Model
Experience Sampling
25
Dealing with Incorrect Model
Experience Sampling
26
Dealing with Incorrect Model
Experience Sampling
27
Dealing with Incorrect Model
Experience Sampling
28
Dealing with Incorrect Model
Experience Sampling
29
Dyna-Q+
Experience Sampling
30
Dyna-Q+: Pseudocode
Experience Sampling
31
Model: 주어진 상태-행동에 대해,
관측된 다음 상태-보상-관측 시간의
쌍을 저장하는 배열
현재 시점보다 관측 시점이
오래될 수록 보상의 양을 증가
Priority of Experiences
Experience Sampling
32
Priority of Experiences
Experience Sampling
33
Priority of Experiences
Experience Sampling
34
Priority of Experiences
Experience Sampling
35
Priority of Experiences
Experience Sampling
36
Priority of Experiences
Experience Sampling
37
Prioritized Sweeping: Pseudocode
Experience Sampling
38
Prioritized Sweeping: Pseudocode
Experience Sampling
39
상태-행동의 쌍을 Error를 우선 순위로 하는 우선 순위 큐Priority Queue에 넣음
Error가 큰 상태-행동의 쌍부터
선택해서 상태 가치 함수를 업데이트
새로 업데이트 된 상태로 전이할 수 있는 상태-행동의 쌍을 뽑아서 우선 순위 큐에 넣음
Prioritized Sweeping: Pseudocode
Experience Sampling
40
새로 업데이트 된 상태로 전이할 수 있는 상태-행동의 쌍을 뽑아서 우선 순위 큐에 넣음
다음 시간에…
41
그 다음 시간에…
42
인공지능
Planning & Learning
강원대학교 컴퓨터공학과 최우혁
강의 순서
44
지난 시간에
45
지난 시간에
46
이번 시간에…
47
Trajectory Sampling
48
Disadvantages of Dyna-Q
Trajectory Sampling
49
Disadvantages of Dyna-Q
Trajectory Sampling
50
On-Policy Trajectory Sampling
Trajectory Sampling
51
On-Policy Trajectory Sampling
Trajectory Sampling
52
On-Policy Trajectory Sampling
Trajectory Sampling
53
(Recap) Bellman Optimality Equation
Trajectory Sampling
54
(Recap) Value Iteration
Trajectory Sampling
55
상태 가치 함수를 임의의 값으로 초기화;
단 종료 상태의 상태 가치 함수는 0으로 둠
최적 상태 가치 함수의 값이
수렴할 때까지 업데이트
행동 가치 함수의 값을 최대화하는 행동을 선택하는 정책 생성
Real-Time Dynamic Programming (RTDP)
Trajectory Sampling
56
RTDP: Pseudocode
Trajectory Sampling
57
Trajectory 내에서 전이된 상태에 대해서만
Bellman Optimality Equation을 활용하여 가치 함수를 업데이트
RTDP: Optimal Policy
Trajectory Sampling
58
Decision-Time Planning
59
Background Planning vs. Decision-Time Planning
Decision-Time Planning
60
Heuristic Search
Decision-Time Planning
61
Heuristic Search: 예. A* 알고리즘
Decision-Time Planning
62
Heuristic Search: 예. A* 알고리즘
Decision-Time Planning
63
Closed set, C 는
상태의 방문 여부를 기록
현재 상태에서 도달할 수 있는 상태들 중 추정된 실제 비용 함수 값보다 작은 비용을 가진 상태가 있다면 우선 순위 큐, PQ에 넣음
Rollout Algorithm
Decision-Time Planning
64
Rollout Algorithm
Decision-Time Planning
65
Rollout Algorithm: Pseudocode
Decision-Time Planning
66
Monte-Carlo Tree Search
Decision-Time Planning
67
Monte-Carlo Tree Search: Tree Policy
Decision-Time Planning
68
Monte-Carlo Tree Search: Phase
Decision-Time Planning
69
Monte-Carlo Tree Search: Phase
Decision-Time Planning
70
Monte-Carlo Tree Search: Phase
Decision-Time Planning
71
Monte-Carlo Tree Search: Phase
Decision-Time Planning
72
Monte-Carlo Tree Search: 예.
Decision-Time Planning
73
Monte-Carlo Tree Search: 예.
Decision-Time Planning
74
Monte-Carlo Tree Search: 예.
Decision-Time Planning
75
Monte-Carlo Tree Search: 예.
Decision-Time Planning
76
Monte-Carlo Tree Search: 예.
Decision-Time Planning
77
Monte-Carlo Tree Search: 예.
Decision-Time Planning
78
Monte-Carlo Tree Search: 예.
Decision-Time Planning
79
Monte-Carlo Tree Search: 예.
Decision-Time Planning
80
다음 시간에…
81