2 of 26

(Recap) Basic of Reinforcement Learning �

Reinforcement Learning:�Input: Given environment which provides numerical reward signal, and agent which act inside of that environment�Outputs: Let agent learn how to take actions(policy) in order to maximize reward.

��

Goal: Learn how to take actions in order to maximize reward
Design RL: Objective, State, Action, Reward �

네. 다시 RL의 problem formulation으로 돌아와서, 좀더 formal 하게 RL framework 를 정의해 보도록 하겠습니다!

RL 은 기본적으로 , 행동을 하는 주체인 agent 와, agent 의 행동의 배경이 되고, 그 행동에 따라 agent 에개 reward라는 피드백을 주는 environment 가 인풋으로 주어졌을때,

에이전트는 그 환경을 스테이트 라는 형태로 받아들인 후, 그 스테이트에따라 어떤 엑션을 취하게 되고,

그러면 Environment 는 그 엑션을 통해 모습이 바뀌는 동시에, 그 엑션에대한 리워드를 에이전트에게 주게 됩니다.

그러면 에이전트는 바뀐 모습의 environment 의 정보를 다시 state 로 받아들어,

그 스테이트 에 따라 다시 엑션을 취하게 됩니다.

이런 과정을 반복하면서,

결론적으로 Agent는 reward를 맥시마이즈 하기위해,

특정 state안에서 어떤 action 을 취할지를 결정하는 어떠한 ”기술＂ 혹은 ”지능” 인 policy 를 배우게 되고

이 policy 가 우리가 최종적으로 배우려는 RL의 결과물 입니다.

따라서 어떤 문제를 RL 을 이용하여 풀고 싶을때에는, 4가지 컴포넌트를 정확하고 구체적으로 디파인 하는 것이 필요합니다.

즉 에이전트가 이루고자하는 목적인 Objective 를 분명히 해야하고

에이전트가 Environment 를 잘 관찰 할 수 있도록, Environment 에 대한 정보를 잘 담고 있는 State vector 를 잘 디자인 해야 합니다.

그리고 에이전트가 취할 action 이 무엇인지도 디파인 해야 합니다. 엑션은 여러개일 수 도 있고 한개일 수 도 있고, discrete 할 수 도 있고 continuous 할 수도 있습니다. 디자인 하기 나름입니다.

그리고 마지막으로 가장 중요한것은

Agent 가 env에 취한 action 에 대해서, 그 action 이 우리의 object 를 이루기 위해 얼마나 좋은 것인지를 나타낼 수 있는

적절한 reward 를 디자인하는 것이 중요합니다.

이 리워드 디자인에 따라, RL 이 동작하기도 하고 망하기도 하는데, 리워드 디자인의 중요성에 대해서는 뒤에서 구체적으로 더 설명 드리겠습니다.

이렇게 Objective, State, Action, Reward 를 잘 디파인 하는게, 알엘을 적용해서 문제를 푸는데 있어서 가장 중요한 부분입니다.

이게 RL application 에서는, 좋은 알고리즘을 디자인 하는 것 보다 더 중요합니다.

3 of 26

Recap - Key Concepts in RL

자 그럼, Value function 에 대해 보지요.

개념적으로 Value function 이란, 특정 타임스템에서,

(1) 특정한 스테이트나, 혹은, (1) 특정 스테이트 엑션 페어로 에피소드를 시작 했을때,

그 시작값으로, 폴리시를 가지고, 게임을 플레이 했을때 얻을 수 있는 cumulative return 의 평균 값 입니다.

약간 말이 어렵지요?

가령, 마리오 게임을 플레이 하는 폴리시 파이를 우리가 배웠다고 합니다.

특정 마리오 게임의 상황에서, 그 폴리시를 가지고 알엘 에이전트가 게임을 플레이 한다고 할때,

그 게임이 끝날때 까지 얻을 수 있는 총 리워드의 합이 벨류 펑션이라고 이해 하시면 됩니다.

벨류 펑션에는, V라고 표현되는 벨류 펑션과, Q라고 표현되는 엑션-벨류 펑션 (혹은 큐 펑션)이 있습니다.

개념은 둘다 똑같습니다. 벨류펑션은 특정 스테이트 (즉 마리오 게임의 특정 상황) 에서 시작할때, 끝날때까지의 리워드의 총 합의 평균값이고

큐 펑션은, 특정 스테이트와 엑션 페어 (즉 마리오 게임의 특정 상황에서 특정 엑션을 취했을때),

그다음 게임을 끝날때 까지 일어날 상황에서 리워드의 총 합의 평균 값 입니다,

이걸 수학적으로 표현하면 다음과 같겠지요?

…

즉 벨류 펑션은 특정 스테이트가 리워드 면에서 가지는 스코어라고 생각하시면 되고,

큐 펑션은 특정 스테이트 엑션 페어가 리워드 면에서 가질 수 있는 스코어 라고 생각하시면 됩니다.

이 개념이 가장 중요한데, 다소 이해가 안되시더라도 괜찮습니다.

뒤에 큐 러닝과 폴리시 그레디언트 쳅터에서 한번 더 설명 드리도록 하겠습니다.

4 of 26

Recap - Key Concepts in RL

When s₀ is given. 🡪 Value function (V)
When s₀,a₀ is given. 🡪 Q function (Q)

Can numerically optimize policy using self-consistent Bellman Function

그럼 앞에서 배운 Value function 과 Q function 을 이용하여

RL problem 을 수학 적으로 formulate 해봅시다!

RL problem 은 연속적으로 state, action, reward, state action reward 가 끝까지 반복되는 이런 트레제토리가 주어졌을때

Expected cumulative reward R을 맥시마이즈 하는 문제이지요.

그걸 수학적으로 표현하면 이렇게 됩니다.

…

옵티멀 폴리시 파이 스타는, 트레제토리 타우가 주어졌을때 Expected cumulative reward R 을 멕시마이즈 하는 폴리시 입니다.

이 식에서 여기 Expected cumulative reward R 의 평균은,

만약 초기 스테이트가 주어졌으면, 앞에서 배운 Value function 으로 대체될 수 있고

초기 스테이트와 엑션 페이거 주어졌으면, 앞에서 배운 Q function 으로 대체될 수 있겠지요?

따라서 알엘 문제는, 이렇게 Value function 혹은 Q function 으로 이루어진 Optimization problem 으로 define 될 수 있고

이 옵티마이제이션 문제는 self-consistent 한 Bellman function 으로 풀릴 수 있습니다.

Bellman function 을 이용해서 optimal policy 를 numerically 푸는 방법에 대해서는 다음 챕터에서 다루도록 하겠습니다.

[휴식-5분]

5 of 26

Taxonomy of RL algorithm

Policy-based

Value-based

6 of 26

The goal of Reinforcement Learning

�

today we're going to cover our first