BCDEFGHIJ
1
URL설명데이터를 만드는 방법
2
https://www.youtube.com/watch?v=OAaEg-P7V54설명 : 인공지능에게 공굴리기 학습을 시켜보는것이다. 빨간색 박스를 먹으면 상을 주고 파란색에서 나가면 벌을 주게 한다.
- 에이전트 : 공
- 환경 : 필드
- 행동 : 공이 박스에 닿으려고 한다.
- 보상 : 필드에서 떨어지지 않으면 보상을 준다.
- 상태 : 공이 박스에 닿으려고 하는 순간 박스는 피하기, 필드에서 떨어지지 않으려고 하는 공
3
https://youtu.be/XuhaT8NLMzw강화학습을 통해 오목 실력을 향상시킵니다.
- 에이전트 - 바둑돌
- 환경 - 바둑판
- 행동 - 오목이 되도록 바둑돌 두기, 상대방이 오목이 안되도록 방어하기
- 보상 - 오목이 되면 승리 점수를 준다. 상대방이 오목이 되면 벌점을 준다.
- 상태 - 현 게임판
4
https://youtu.be/qv6UVOQ0F44강화학습을 이용해서 똑똑한 마리오를 만드는 예제입니다.
5
https://youtu.be/7Yc6ZHixgRk인공지능 골키퍼가 상대 선수의 축구공을 막는다.
- 에이전트 : 골키퍼
- 환경 : 축구장
- 행동 : 상대의 키퍼가 찬 공을 막는다.
- 보상 : 상대가 찬 공이 골대에 들어가지 않으면 득점을 막을 수 있다.
- 상태 : 상대선수가 차는 축구공을 막기위한 골대의 골키퍼
6
https://youtu.be/qv6UVOQ0F44강화학습을 이용하여 슈퍼마리오 게임능력을 향상시키는 영상입니다.
agent: 슈퍼마리오
environment: 마리오 게임 맵
action: 점프, 좌우, 속도 조절
reward: 공격대상과 부딪힐 경우 생명을 잃어 게임실패, 성공적으로 게임을 이어가면 코인을 통해 보상.
state: 마리오의 생명개수, 공격대상과의 거리
7
https://www.youtube.com/watch?v=exXD6wJLJ6s쿠키런에서 점수를 많이 얻을 수 있도록 강화학습한 예제
에이전트:캐릭터
환경:게임 맵
행동:점프,슬라이드
보상:죽지 않고 점수를 얻으면 보상,죽거나 초당 평균적인 점수를 얻지 못하면 벌
상태: 초당 점수,사물의 위치,아이템의 성질
8
https://youtu.be/jkaaU2yG9LQ강화학습을 이용해서 길안내 로봇의 장애물 탐지 능력을 향상시키는 예제입니다.
에이전트 - 로봇 / 환경 - 장애물들이 존재하는 곳 / 행동 - 장애물 탐지, 방향 바꾸기, 앞으로 나아가기, 멈추기 등 / 보상 - 장애물을 잘 피한 경우 상을 준다. 장애물을 피하지 못하고 부딪히면 벌을 준다. / 상태 - 로봇의 현재 위치, 장애물과의 거리
9
https://youtu.be/V1eYniJ0Rnk컴퓨터가 벽돌을 깨면 점수를 보상으로 주며 벽돌깨기 능력을 향상시키는 예제입니다.
10
https://www.youtube.com/watch?v=gn4nRCC9TwQ강화학습을 통해 시뮬레이션 상에서 걷는 방법을 익히는 예제입니다.에이전트- 인공지능
환경- 시뮬레이션
행동- 걷기
보상- 넘어지지 않고 걸었으면 상을 준다.
상태-시뮬레이션 화면
11
https://www.youtube.com/watch?v=kopoLzvh5jY강화학습을 이용해서 에이전트의 술래잡기 실력을 키우는 예제입니다. (멀티 에이전트)
- 에이전트 - 참여자
- 환경 - 게임장
- 행동 - 숨기, 블럭 사용하기, 협력하기, 경사도 사용하기, 도구 숨기기, 기타 등등
- 보상 - 숨은 에이전트를 찾으면 술래에게 상, 숨기 성공하면 기타 참여자에게 상, 멀티 에이전트라 한 쪽에 상이 반대쪽엔 벌이됨
- 상태 - 에이전트간의 거리, 장애물의 여부

간단한 게임을 무한히 플레이하여 더 어려운 상황에서 게임을 수행함.
12
https://www.youtube.com/watch?v=6d8yKVcAsYo&t=466s항해 시간에 따라 받는 바닷물 저항을 선박에 반복적으로 가하는 실험을 통해 최적의 설계를 할 수 있다.
에이전트 : 엔지니어
환경 : 가상의 유체 속에서 반복적인 저항을 가하는 실험을 하고 있는 선박
행동 : 최적 유형 설계
보상 : 각 유형별 구분
상태 : 각 유형별 장단점 파악
13
https://support.apple.com/ko-kr/guide/watch/apd0d5d452ce/7.0/watchos/7.0
애플워치(스마트워치)를 착용하면 , 내 스트레스나 심리적안정감을 심박수로 나타낼 수 있다.
내가 어떠 특수한 행동을 할때 , 안정감을 느끼는지 , 불안함을 느끼는지(우리조차 무의식적으로 알지 못하는) 강화학습을 통해서 우리에게 알려주고 , 우리가 그 데이터를 바탕으로 새로운 습관을 만들어 낼 수 있다.
예)
하루의 끝에서
오후3시~오후5시 까지의 심박수가 안정적이였다. - 내가 그때 무엇을 했던가
친구 A와 통화를 했다 - 심박수가 안정적이였다.

사람이 자신의 감정을 알 때 , 더욱 편안한 삶을 살 수 있다.
내가 어떤 사람과 연락을 할때 , 어떤 행동을 할때 , 어디에서 , 안정감을 느끼는지 데이터로 기록할 수 있다.
애플워치(스마트워치)를 착용하고 일상생활을 하는 동안 계속 데이터를 만들어낸다.
14
https://www.youtube.com/watch?v=nReMgotclXU강화 학습을 통해 볼링공이 볼링을 맞추는 예제입니다
에이전트 - 볼링공
환경 - 볼링장
행동 - 볼링공을 계속 굴리기
보상 - 볼링핀을 시간 내에 맞추면 상을 준다. 못 맞히거나 시간을 초과하면 벌을 준다
상태 - 볼링공과 볼링핀의 거리, 볼링공의 위치
15
https://www.youtube.com/watch?v=2n9SLVhFIz8강화학습을 통해 고양이 모델에게 착지동작을 학습시킵니다.
고양이를 공중에서 떨어트려 네발로 착지하면 상, 아니면 벌을 줍니다. 그 이외에도 학습을 최적화하기 위해 다양한 벡터연산을 사용합니다
16
https://www.youtube.com/watch?v=rVlhMGQgDkYAtlas, The Next Generation (Boston Dynamics)
몸과 다리에 센서를 사용하여 균형을 맞추고 머리에 LIDAR 및 스테레오 센서를 사용하여 장애물을 피하고 지형을 평가하며 탐색을 돕고 물체를 조작.
17
https://zdnet.co.kr/view/?no=20200520153301강화학습 농구골대
- 에이전트 - 농구골대
- 환경 - 창고
- 행동 - 농구골대를 움직여 사용자가 던진 공이 골대에 들어오면 상을 못들어오면 벌을 준다.
- 상태 - 공던지는 사람의 움직임, 농구공의 위치
18
https://youtu.be/zIkBYwdkuTk설명: 강화학습을 이용해서 snake 의 게임에서의 생존능력을 향상시키는 예제입니다.
- 에이전트 - 뱀
- 환경 - 사방이 막혀있는 공간
- 행동 - 뱀의 상하좌우 방향 조작하기
- 보상 - 뱀이 사과를 먹으면 상을 준다. 벽에 부딪히거나 이동 경로가 없을 경우 벌을 준다.
- 상태 - 뱀의 위치, 벽과 사과의 거리
19
https://www.youtube.com/watch?v=nReMgotclXU강화학습을 통해 볼링공이 핀을 맞추는 능력을 향상시키는 예제입니다.
에이전트 - 볼링공
환경 - 레인
행동 - 볼링공 굴리기
보상 - 공이 핀을 맞히면 점수를 준다. 레일 밖으로 떨어지거나 시간이 오래걸리면 점수가 없다.
상태 - 공의 위치, 핀의 위치
20
https://www.youtube.com/watch?v=OAaEg-P7V54강화학습을 이용해서 공굴리기를 학습시키는 예제입니다.
에이전트:공
환경:안전한 땅, 벌을 주는 땅
행동:공을 굴림
보상:공을 굴려 빨간블럭을 만날시 상을 주며 안전한 땅을 벗어나면 벌을 주어서 학습시킨다
상태:공의 속도 위치 정확성
21
https://www.youtube.com/watch?v=Yr_nRnqeDp0그네타는 법을 학습시키는 예제입니다 - 에이전트 - 캐릭터
- 환경 - 그네
- 행동 - 그네를 타고 더 높이 올라가기
- 보상 - 높게 올라간 알고리즘만을 남긴다
22
https://youtu.be/Yr_nRnqeDp0강화학습의 일종인 유전적 알고리즘을 사용하여 앉기, 일어나기만 가능한 캐릭터가 그네를 탈 수 있도록 학습시키는 예제입니다.
에이전트 - 캐릭터
환경 - 그네위
행동 - 앉기, 서기
보상 - 흔드는 폭이 큰 기준(최대4명)으로 다음 세대에도 참여 시킴
상태 - 그네가 흔들리는 폭
23
https://www.youtube.com/watch?v=laOg6DYBc6c강화학습을 이용해 노란 바나나를 먹기
- 에이전트 - 1인칭 시점
- 환경 - 제한된 사각형 구역
- 행동 - 앞뒤로 이동하기, 방향 바꾸기
- 보상 - 노란 바나나를 정확하게 먹었으면 상을 준다. 파란 바나나를 먹으면 벌을 준다.
- 상태 - 1인칭 시점이 현재 위치, 바나나의 위치와 거리, 바나나의 색
24
https://www.youtube.com/watch?v=VMp6pq6_QjI강화학습을 이용해서 자동차의 주차능력을 향상시키는 예제입니다.
에이전트 - 자동차
환경 - 주차장
행동 - 핸들, 엑셀러레이터, 브레이크 조작하기
보상 - 주차를 주차공간에 빠르고 정확하게 했으면 상을 준다. 도로가 아닌 곳과 부딪히면 벌을 준다.
상태 - 자동차의 현재 위치, 사물과의 거리
25
https://youtu.be/kopoLzvh5jY시뮬레이션 환경을 이용한 숨바꼭질 강화학습 영상입니다.
26
https://youtu.be/QilHGSYbjDQ팩맨의 게임능력을 향상시키는 예제입니다.
27
https://youtu.be/ZhsEKTo7V04강화학습을 통해 로봇팔이 문 여는 방법을 터득하는 영상입니다.
28
https://www.youtube.com/watch?v=Aut32pR5PQA2D 시뮬레이터 상에서 강화학습을 이용해 자율주행 기능을 구현하는 영상입니다.
29
https://www.youtube.com/watch?v=WSW-5m8lRMs&t=357s인공신경망과 강화학습을 이용해 플래피 버드 게임을 하는 인공지능을 만드는 영상입니다.
30
https://www.youtube.com/watch?v=nReMgotclXU볼링공이 볼링핀을 맞추도록 강화학습을 통해 구현하는 영상입니다.
31
https://www.youtube.com/watch?v=8cdUree20j4스네이크 게임 능력을 향상을 강화학습을 통해서 구현하는 영상입니다.
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100