1 of 49

Transformer 모델 (1): Self-Attention

2 of 49

수업 목표

이번 수업의 핵심:

Self-attention의 개념
Scaled dot-product attention 계산과 원리의 이해
Multi-head attention의 필요성과 적용 방법

핵심 개념

Self-attention
Scaled dot-product attention
Multi-head attention

3 of 49

Transformer 개요

Attention is all you need

더 이상 RNN, CNN 모듈을 사용하지 않음

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

3

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

I go to school

입력

나는 학교에 간다

출력

먼저 앞에서 배운 seq2seq with attention 모델에서 인코더 및 디코더가 여러 층의 RNN 기반의 모델로 되어 있는 상황을 생각해보겠습니다. 여기서 가령 입력으로 주어진 문장 내에 각 단어는 RNN 기반의 인코더를 통해 각각 히든 스테이트 벡터로 인코딩되고, 이 백터는 다시금 다음 레이어의 RNN 레이어의 입력 벡터 xt의 형태로 주어져서 해당 레이어의 히든스테이트 벡터를 계산하고요 최종적으로는 마지막 레이어의 rnn에서는 여전히 각 타임스텝에서 주어진 각각의 워드별 인코딩된 최종 히든스테이트 벡터를 아웃풋으로 내어주게 됩니다.

그랬을 때 오른쪽에 보이는 디코더의 경우에도 RNN 레이어를 여러 층으로 쌓아서 구성할 수 있고, 디코더의 각 RNN 레이어에서는 역시 추가적인 텐션 모듈을 통해 인코더의 가장 마지막 레이어에서 나온 히든스테이트 벡터들을 대상으로 하여 그때그때 필요로 하는 정보들을 가져갈 수 있을 것입니다. 최종적으로 디코드에 마지막 RNN 레이어에서 계산된 히든스테이트 벡터는 rm 레이어에서 역시 어텐션을 통해 인코더 히든백 스테이트 벡터 상에서 필요로 하는 정보를 가져온 후 이를 같이 활용하여 다음 타임스텝에서 나올 단어를 각각 순차적으로 예측해 주게 될 것입니다. 물론 여기서 디코더의 첫 타임 스텝에서는 sos 혹은 스타트업 센텐스 토큰을 입력으로 받아서 다음 단어 예측을 시작할 것이구요.

그랬을 때 이러한 시퀀스 시퀀스 위더 텐션 모델의 구조는 크게 인코더, 디코더, 그리고 추가적인 이 디코더와 인코더 간의 어텐션 모듈로 된 세 개의 모듈을 가지고 있는데요,

기본적으로 이 트랜스포머 모델은 그 모델이 처음 제안된 논문 제목이 여기 보이시는 Attention is all you need 라는 말처럼, 이 3개 모듈 중 인코더와 디코더까지도 어텐션 모듈로 대체해서 총 세 개의 모듈이 모두 다 어텐션 모듈을 통해 동작하는 형태를 가지고 있습니다.

4 of 49

RNN을 통한 인코딩 방식

4

입력

출력

Forward

RNN

Backward

RNN

여기서 RNN모델을 통해, 여기서 RNN이라고 말씀드리는 것은 보통은 바닐라 RNN 대신 LSTM이나 GRU를 의미합니다.

그랬을 때 이러한 RNN 모델을 가지고 주어진 시퀀스를 인코딩하는 과정의 의미를 생각해보면, 저희가 가령 bidirectional RNN을 사용하는 것을 가정할 때, 나는 학교에 간다 라는 문장이 주어졌다면, 각 단어에 해당하는 이러한 x1부터 x3까지의 입력 벡터들이 주어져있을 때, 각 타임스텝에 해당하는 히든스테이트벡터 h1, h2, h3를 인코딩하는 것을 의미하고, 각각의 히든스테이트 벡터를 인코딩 하는 과정은, 현재 주어진 입력 단어와, 해당 시퀀스 내의 다른 단어들 혹은 그 단어들의 입력벡터들로부터 필요한 정보들을 잘 반영하셔 해당 히든스테이트벡터를 만들어 내는 과정이라고 볼 수 있습니다.

그런데, RNN기반의 모델로 주어진 시퀀스를 인코딩할 때에는, 가령 t=3일 때의 히든스테이트벡터인 h3가 2타임스텝 떨어진 x1의 정보를 필요한 만큼 잘 담기 위해서는, 그러한 x1 벡터가 이렇게 h1을 거쳐, RNN모듈을 통해 h2에 포함되고, 다시 또 동일한 RNN모듈을 통해 h3에 포함되는 경로를 거쳐야 합니다.

따라서, 타임스텝 값의 차이가 멀면 멀 수록, 해당 인풉 벡터의 정보가 그 타임스텝값의 차이만큼의 RNN 모듈들을 거친 후에야 비로소 해당 히든스테이트벡터에 도달하여 필요한 정보를 전달해줄 수 있기 때문에, 오리지널 입력 정보가 이 수많은 RNN 모듈을 거치면서 변질되거나 소실되는 정도가 점점 더 커져서, 해당 정보를 제대로 포함하기가 어려울 수 있을 것입니다. 이러한 문제를 앞에서 저희는 long-term dependency 문제라 불렀고, vanilla RNN 모델에 비해 LSTM이나 GRU 모델이 이를 효과적으로 개선했다고는 하나, 방금 말씀드린 이러한 RNN 기반 모델의 기본적인 동작 방식으로 인해, 여전히 이러한 long-term dependency 문제를 가진다고 볼 수 있습니다.

반면, 저희가 앞에서 배운 어텐션 기법을 잘 확장하여, 주어진 시퀀스를 인코딩하는 용도로 사용하게 되면, 저희는 어떤 특정 타임스텝의 히든 스테이드 벡터가 주어진 시퀀스 내의 모든 입력벡터들을 직접적으로 접근할 수가 있게 되어서, 기존의 RNN이 가지던 long-term dependency 문제를 근본적으로 해결할 수 가 있게 됩니다. 이 구체적인 내용은 이후 슬라이드에서 보다 자세히 말씀드리도록 하겠습니다.

5 of 49

Query, Key, Value in Hash Table

5

Key (동물)	Value (다리 개수)
강아지	4
닭	2
문어	8
오징어	10
고양이	4

그리고, attention 모듈을 통해 어떻게 주어진 시퀀스를 인코딩하는지를 보기 전에, 해당 과정을 보다 직관적으로 쉽게 이해하기 위한 예시로서, 이러한 해시테이블을 생각해보겠습니다.

기본적으로 이 해시테이블은 키와 밸류 페어로 이루어져 는 데이터베이스의 한 형태로서 여기에 시에서 보이시면 키의 경우 어떤 동물을 나타내고 밸류는 그 해당 동물이 가지는 다리에 개수를 저장하고 있습니다.

이 상황에서 저희가 필요로 하는 정보를 꺼내오는 방식은 이렇게 어떤 쿼리로써 저희가 원하는 동물을 입력해 주면, 해시테이블 내에서 그 쿼리값과 정확하게 일치하는 키를 찾고, 그 해당 밸류값을 이렇게 리턴해 주는 것입니다. 만약 저희가 입력한 쿼리가 매칭되는 키가 해시테이블 상에 존재하지 않는 경우 저희는 이러한 학교에 해당 허리가 등록된 기내에 존재하지 않는다는 에러 메시지를 보게 되겠죠.

어텐션 모듈은 기본적으로 이러한 해시테이블로부터 저희가 원하는 정보를 꺼내오는 과정과 유사하다고 볼 수 있는데요, 다만 딥러닝 모델 내에서 는 우리가 주로 팩터들을 다루기 때문에 여기 있는 각각의 키와 그에 매칭되는 밸류들은 모두 어떤 특정 디멘젼으로 이루어진 벡터들로 구성되어 있는 상황에서, 저희가 현재 찾고자 하는 키에 대한 정보를 담고 있는 쿼리로써의 어떤 벡터를 주게 되면, 저희는 위에서 본 오리지널 해시테이블 상에서 주어진 쿼리와 이 해시태그 내의 키 간의 exact 매칭을 통해 해당 키값의 밸류 정보를 꺼내 갔다면, 저희는 주어진 쿼리 벡터를 이 해시테이블 내에 각각의 키 팩터와 어떤 상대적인 유사도를 구하게 되고 (예시를 들자), 그 유사도를 가중치로 사용하여 해당 밸류 값들의 가중평균을 내는 식으로 저희가 필요로 하는 정보를 이번에 가는 식으로 동작하게 되는 것입니다.

6 of 49

Self-Attention

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

6

Softmax

나는

학교에

간다

3.8

-0.2

5.9

0.7

0.1

0.2

그래서 요약해서 말씀드리면, 백터들로 이루어진 키벨류페어들로부터 우리가 어떤 쿼리벡터를 주어서 그 쿼리 벡터와 각각의 키 벡터 간의 유사도를 구하고 이러한 상대적인 유사도를 바탕으로 밸류 벡터들의 가중평균을 내는 식으로 출력 벡터를 계산해주는 것으로 어텐션 모듈이 동작한다고 볼 수 있는데요,

이러한 과정을 사용하여 주어진 입력 시퀀스를 인코딩하는 과정을 다음의 예시로 살펴보면요, 여기 예시에서는 나는 학교에 간다라는 입력 벡터들이 시퀀스 형태로 주어졌을 때, 각 입력단어 혹은 입력백터 별로 어떤 sequence 전체 내용을 잘 반영해서 그 정보를 encoding한 여기에 있는 이 히든스테이트 벡터가 아웃풋으로 나오게 됩니다.

이 과정을 저희가 어텐션 방식을 통해 이 시퀀스의 인코딩을 수행하게 되면,

예를 들어 가장 단순한 방식으로서, 저희가 참조할 해시테이블에 해당하는 키밸류 벡터페어로서 이렇게 x1 벡터 자체가 키 그리고 동시에 밸류의 역할을 하는 벡터로써 어떤 (x1,x1)으로서의 키밸류 페어를 구성하고, 엑스 투도 마찬가지로 자기 자신 벡터를 가지고 키밸류 페어를 만들어서 (x2,x2), 그리고 (x3,x3) 세 개의 키벨류 페어가 주어져 있다고 생각해 보겠습니다. 그랬을 때 먼저 엑스원 에 대한 인코딩 벡터 h1을 계산해보면, 이 입력 벡터 x1을 쿼리로 사용해서 방금 말씀드린 (x1,x1)¸ (x2,x2), (x3,x3) 페어로 이뤄진 이 해시테이블 상에서 각각의 키 벡터와 내적을 통해 유사도를 구하고, 거기 소프트맥스를 통과해서 합의 일인 형태의 상대적인 유사도 값을 구한 후 그 값을 가중치로 사용해서, 밸류 벡터에 해당하는 x1,x2,x3벡터들에 대한 가중평균 벡터를 구함으로써 x1의 인코딩 벡터인 h1벡터를 얻을 수 있겠죠.

마치, 이 과정은 앞에서 시퀀스 투 시퀀스 위드 어텐션 모델에서 있었던 어텐션 모듈의 동작과정을 생각해볼 때, 바로 쿼리 벡터가 디코더의 각 타임스텝의 히든스테이트 벡터가 되어서 우리가 찾고자 하는 정보를 나타내고 있는 벡터의 역할을 했구요, 키벨류 벡터페어들은 인코더 히든스테이트 벡터 하나하나가, 키와 밸류로 동시에 역할을 하고 있었다고 생각해볼 수 있습니다. 그래서 저희는 디코더 히든스테이트 벡터, 즉 쿼리 벡터를 가지고, 저희에게 주어진 키밸류 벡터 페어들이 있었을 때, 키 벡터들 각각과 내적에 기반한 유사도를 구하고, 이를 소프트맥스를 취해서 합이 1인 형태의 확률 값들로 만들어 준 후, 그걸 가지고, 다시 키 벡터와 동일한 벡터였던 인코더 히든스테이트 벡터를 밸류 벡터로 해서 그 밸류 벡터들의 가중 평균을 구하는 방식으로 최종적인 어텐션 모듈의 아웃풋 벡터를 계산했던 것이었죠.

그러면, 다시 여기 예시에서 시퀀스를 인코딩하는 상황을 생각해볼 때, 여기서는 키와 밸류로서, 각 입력 벡터 x1, x2, x3들이 중복된 역할을 하지만, 동시에 x1, x2, x3 각각의 벡터가 쿼리로서도 역할 하고 있는 것으로 생각해볼 수 있구요,

그래서, 가령 x1을 쿼리로 사용했을 때, 키 벡터들에 해당하는 x1, x2, x3와 각각 내적을 하고, 거기에 소프트맥스를 취해서 얻어진 가중치 값이 가령, 0.2, 0.1, 0.7로 구성됐다면, 이러한 가중치를 사용해서 밸류벡터들, 즉, x1, x2, x3에 대한 가중 평균 값으로서, 여기서 주어진 I에 해당하는 워드가 인코딩된 히든스테이트 벡터를 구할 수 있게 될 것이고, 마찬가지로, 두번째 워드에 해당하는 go의 입력 벡터 x2를 쿼리로 사용했을 때에는, 이를 쿼리로 사용하여, 다시금 이 키, 밸류 벡터들에 어텐션을 걸어서, 밸류 벡터들에 대한 나름의 가중 평균된 벡터를 이 워드에 대한 인코딩된 히든스테이트 벡터로 계산할 수가 있게 될 것입니다.

�이러한 과정에서 볼 때, 키와 밸류 벡터가 같은 페어 내에서 동일하게 설정돼있다는 거야 그렇다 치지만, 쿼리 벡터들조차 그 동일 벡터 세트 내의 벡터들이다라는 의미에서, 이러한 방식의 시퀀스 인코딩 과정을 저희는 self-attention모듈이라고 부르게 되구요,

그런데, 실제 셀프 어텐션 모듈에서는 이러한 과정을 좀 더 확장 및 변형해서 사용하게 되는데요, 지금 이렇게 동작하는 self-attention 모듈에서, 결국 x1을 쿼리로 쓰면, 일반적으로 이 벡터들의 L2 norm혹은 길이가 엇비슷하다고 생각할 때, 결국 자기 자신 벡터와의 cosine similarity가 가장 큰 1이라는 값을 가질 것이기 때문에, 그 내적을 통한 자기자신 벡터와의 유사도가 서로 다른 Vector와의 내적을 했을 때보다는 훨씬 더 큰 값으로 도출될 것입니다. 그러면 결국 자기 자신에게 큰 가중치가 걸리는 형태로 어텐션 모듈이 계산될 것이고, 그렇게 되면, 인코딩을 한 이후 결과 벡터로서의 이 히든스테이트벡터들도 그냥 원래 자기 자신의 정보만을 위주로 포함하고 있는 Vector들만으로 밖에 나오지 않을 것입니다.

또한, 이러한 셀프 어텐션 모듈의 동작과정에서 결국, 저희는 입력 벡터들이 주어졌을 때, 어찌 됐건, 각 단어 별 출력 벡터들은 언제나 입력 벡터들의 가중 평균된 벡터들로 나타날 것이고, 그러면, 이러한 벡터들을 어떤 뉴럴넷의 레이어들을 통해 변환한 좀 더 유의미한 의미를 담고 있는 벡터가 아닌, 그냥 입력 벡터들의 가중 평균 밖에 지나지 않게 되어서, 그 벡터들이 나타내는 정보들의 표현력에 있어서도 한계를 가지게 될 것입니다.

따라서, 저희는 이러한 어떤 가장 기본적인 형태의 셀프 어텐션 모듈의 동작 과정을 좀 더 유연하게 확장해서, 어떤 주어진 벡터들이 쿼리, 키, 밸류로 쓰일 때에 각각 역할에 따라 여기에 나와있는 서로 다른 선형 변환을 해줌으로써, 결국 같은 벡터 세트를 사용할 때에도, 뭔가 유의미하게 서로 다른 쿼리, 키, 밸류 벡터들이 나올 수 있게 되는 것입니다.

7 of 49

Dot-Product Attention

7

8 of 49

Self-Attention의 선형 변환 예시

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

8

Softmax

나는

학교에

간다

3.8

-0.2

5.9

0.7

0.1

0.2

Embedding

입력

학교에

간다

Queries

Keys

Values

9 of 49

Dot-Product Attention for Query Batch

9

Row-wise

Softmax

10 of 49

Scaled Dot-Product Attention

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

10

11 of 49

Scaled Dot-Product Attention

참고: http://jalammar.github.io/illustrated-transformer/

11

입력

학교에

간다

Embedding

Queries

Keys

Values

Attention score

Softmax output

가중합

12 of 49

Multi-Head Attention

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

12

13 of 49

Multi-Head Attention

참고: http://jalammar.github.io/illustrated-transformer/

13

Attention Head #0

Attention Head #1

Attention Head #7

…

14 of 49

Multi-Head Attention

참고: http://jalammar.github.io/illustrated-transformer/

14

Concatenation

15 of 49

Multi-Head Attention

참고: http://jalammar.github.io/illustrated-transformer/

15

1) 문장 입력

학교에

간다

2) 각 단어를Embedding

첫번째 Encoder 층을 제외하고는 Embedding이 필요하지 않음

🡪 이전 Encoder 층의 출력 사용

…

16 of 49

Self-Attention 시각화

Attention distribution 시각화

각 단어가 어느 다른 단어에 집중하는지 확인할 수 있음

참고: https://github.com/jessevig/bertviz

16

색깔 별로 다른 Head를 의미

17 of 49

Self-Attention 시각화

Attention distribution 시각화

각 단어가 어느 다른 단어에 집중하는지 확인할 수 있음

참고: https://github.com/jessevig/bertviz

17

18 of 49

Self-Attention 비교

Vaswani et al. “Attention Is All You Need”. NeurIPS. 2017.

18

19 of 49

요약

RNN 구조의 문제점과 이를 해결하기 위한 Self-attention의 개념
Dot-product attention의 계산과 Scaled dot-product의 적용
Multi-head attention의 필요성과 구조 이해
Self-attention 시각화와 Convolutional/Recurrent 모듈과의 장단점

19

20 of 49

Transformer 모델 (2): 기타 구성 요소

21 of 49

수업 목표

이번 수업의 핵심:

Transformer block의 여러 구성 요소
Positional embedding의 필요성과 Sinusoidal positional embedding
Transformer decoder의 Masked self-attention & Cross attention

핵심 개념

Layer normalization
Positional embedding, Sinusoidal positional encoding
Masked attention
Cross attention

22 of 49

Transformer 개요

Attention is all you need

더 이상 RNN, CNN 모듈을 사용하지 않음

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

22

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

I go to school

입력

나는 학교에 간다

출력

23 of 49

Transformer의 Block

저자의 성 et al. “논문 이름”. 학회/저널 별칭. 년도. 링크.

23

24 of 49

Layer Normalization

Ba et al. “Layer Normalization”. ArXiv. 2016. https://arxiv.org/abs/1607.06450.

Wu et al. “Group Normalization”. ECCV. 2018.

24

25 of 49

Layer Normalization

각 단어 벡터를 Normalization하여 평균과 분산을 0과 1로 변환
각 차원 별로 학습 가능한 Parameter로 Affine transformation

Ba et al. “Layer Normalization”. ArXiv. 2016. https://arxiv.org/abs/1607.06450.

25

4

2

3

-3

2

1

5

2

학교에 갑니다

0.65

0.7

-1.35

-0.3

-0.45

-1.5

1.25

1.1

2.95

3.1

1.35

0.3

0.55

-0.5

-0.2

26 of 49

Positional Encoding

Transformer 블록은 Permutation-invariant

입력 순서가 뒤바뀌어도 똑같은 출력이 나옴

따라서, Transformer 모델이 같은 단어들로 이루어진 입력 Sequence에 대해서도, 서로 다른 어순을 구별하도록 하기 위해, 각 단어에 현재 위치 정보를 넣을 필요가 있음
원 Transformer 논문에선 Sinusoidal function을 활용
학습 가능한 Positional embedding을 사용하기도 함

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

26

27 of 49

Sinusoidal Positional Encoding

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

27

28 of 49

Decoder

Masked attention

Causal attention이라고도 부름
Self-attention이 과거 생성 결과에 대해서만 집중

Cross attention

Encoder-decoder 간의 attention
Query: Decoder의 Causal-attention 결과
Key와 Value: Encoder의 출력

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

28

29 of 49

Masked Attention

아직 생성되지 않은 단어는 추론 과정 중엔 접근할 수 없음
Softmax 출력을 수정하여 아직 생성되지 않은 단어에 접근을 못하게 함

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

29

Query: <SOS>

Key: <SOS>

Query: <SOS>

Key: 학교에

Query: 나는

Key: 학교에

Query

Key

<SOS>

나는

학교에

<SOS> 나는 학교에

<SOS>

나는

학교에

간다

나는

학교에

Transformer (Decoder)

<SOS>

나는

학교에

<SOS> 나는 학교에

30 of 49

Masked Attention

아직 생성되지 않은 단어는 추론 과정 중엔 접근할 수 없음
Softmax 출력을 수정하여 아직 생성되지 않은 단어에 접근을 못하게 함

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

30

<SOS>

나는

학교에

간다

나는

학교에

Transformer (Decoder)

Query: <SOS>

Key: <SOS>

Query: <SOS>

Key: 학교에

Query: 학교에

Key: 나는

Query: 나는

Key: 학교에

0.91

0.42

0.25

0.05

0.47

0.31

0.04

0.11

0.44

<SOS>

나는

학교에

<SOS>

나는

학교에

2.01

0.84

0.29

-0.94

0.96

0.48

-1.18

-0.49

0.84

Softmax

<SOS>

나는

학교에

<SOS>

나는

학교에

31 of 49

Masked Attention

아직 생성되지 않은 단어는 추론 과정 중엔 접근할 수 없음
Softmax 출력을 수정하여 아직 생성되지 않은 단어에 접근을 못하게 함

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

31

<SOS>

나는

학교에

간다

나는

학교에

Transformer (Decoder)

Query: <SOS>

Key: <SOS>

Query: <SOS>

Key: 학교에

Query: 학교에

Key: 나는

Query: 나는

Key: 학교에

1.00

0.47

0.25

0

0.53

0.31

0

0.44

<SOS>

나는

학교에

<SOS>

나는

학교에

2.01

0.84

0.29

-0.94

0.96

0.48

-1.18

-0.49

0.84

Softmax

<SOS>

나는

학교에

<SOS>

나는

학교에

32 of 49

Masked Attention

아직 생성되지 않은 단어는 추론 과정 중엔 접근할 수 없음
Softmax 출력을 수정하여 아직 생성되지 않은 단어에 접근을 못하게 함

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

32

Query

Key

<SOS>

나는

학교에

<SOS> 나는 학교에

Value

<SOS>

나는

학교에

<SOS> 나는 학교에

1.00

0.47

0.25

0

0.53

0.31

0

0.44

33 of 49

실험 결과

영어-독일어/프랑스어 번역 결과 (newstest2014 데이터셋)

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

33

34 of 49

요약

Attention, MLP, Layer normalization 등 Transformer 모델의 구성요소
Layer normalization와 Batch normalization의 차이점
Transformer 블록의 Permutation invariance와 Positional embedding
Transformer decoder에서의 Masked attention의 원리와 적용

34

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

ENCODER

DECODER

I go to school

입력

나는 학교에 간다

출력

35 of 49

Transformer 기반 Computer Vision 모델 구조�ViT

36 of 49

수업 목표

이번 수업의 핵심:

컴퓨터 비전 문제에서 Transformer 모델을 적용한 Vision transformer 이해

핵심 개념

Vision Transformer
Pretraining, Fine-tunning, Transfer learning

37 of 49

컴퓨터 비전을 위한 Transformer

Transformer 구조는 NLP에서 가장 널리 쓰이는 모델로 사용됨
반면, Computer Vision 분야에서는 CNN 구조를 주로 사용

이미지 처리를 위해서 Transformer 구조를 사용할 수 있을까?

Vaswani et al. “Attention Is All You Need”. NIPS. 2017.

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

37

Convolutional

Neural Network

Transformer

38 of 49

Pixel-Level Transformer

이미지 처리를 위해서 Transformer 구조를 사용할 수 있을까?

이미지의 픽셀을 토큰으로 간주
일반적인 Transformer encoder의 입력으로 사용

Image credit: https://www.pexels.com/photo/cute-cat-sitting-outdoors-on-grass-and-looking-up-7149465/ CC0

38

Transformer Encoder

출력

이미지 픽셀

39 of 49

Pixel-Level Transformer의 문제점

39

Self-attention 행렬

40 of 49

Patch-Level Transformer

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

Image credit: https://www.pexels.com/photo/cute-cat-sitting-outdoors-on-grass-and-looking-up-7149465/ CC0

40

41 of 49

Vision Transformer (ViT)

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

41

42 of 49

Vision Transformer (ViT)

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

42

Positional embedding

43 of 49

Vision Transformer (ViT)

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

43

Positional embedding

Transformer Encoder

Special Token

([CLS] token)

44 of 49

Vision Transformer (ViT)

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

44

Positional embedding

Transformer Encoder

Special Token

([CLS] token)

45 of 49

Vision Transformer (ViT)

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

45

Positional embedding

Transformer Encoder

Special Token

([CLS] token)

Linear layer로최종 예측

고양이

46 of 49

Vision Transformer (ViT)

JFT-300M에서 사전 학습(Pretraining)을 진행

JFT-300M: 18,000개 Class와 3억 개 이상의 고화질 이미지로 구성된 데이터셋

이후, 각각의 데이터에서 Fine-tuning한 후 분류 정확도 측정

모든 benchmark에서 당시 최신 모델인 ResNet 기반 BiT-L의 기록을 갱신

모델 뒤의 숫자는 이미지 Patch의 크기를 나타냄

Patch 크기가 작을수록 모델의 사이즈가 증가

CNN 모델에 비해 연산량이 적어 효율적이고, 학습도 빠르게 수행

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

46

47 of 49

Transfer Learning

Pretraining (사전 학습)

대규모 데이터 및 이를 통한 별도의 태스크를 통해 모델을 사전에 학습

Transfer learning (전이 학습)

사전 학습된 모델을 Target task에 대해 Fine-tuning하는 방법론

Target task는 Downstream task, Fine-tuning task라고도 불림

사전학습을 위해 사용된 모델 일부는 Target task용 모듈로 대체하기도 함

47

입력 A

Task A

입력 B

Task B

Backprop

Transfer

Learning

Pretrained model

참고로 앞에서 사전학습 및 fine-tuning하는 과정이 나왔는데요, 이러한 방식을 저희는 트랜스퍼 러닝 혹은 전이 학습이라고도 부르고요, 앞에서 나온 JFT-300M과 같은 대규모 데이터로 학습된 모델은 주어진 입력 데이터에 대한 다양한 유의미한 지식을 배웠을 가능성이 높고, 그렇게 배운 유의미한 지식은 결국 이 프리트레이닝에 사용된 모델들의 각각의 레이어들에서 주어진 입력 데이터에 대한 다양한 유용한 피처를 추출하고 있을 것입니다.

그러면 특히 우리 모델이 사전에 배운 지식을 저희 메인 테스크해 활용해서 성능을 높이기 위한 목적으로, 우리는 먼저 이렇게 어느 정도 유의미한 피처드를 추출할 수 있도록 하는 사전학습 모델의 앞쪽 레이어들을 가져와서 이렇게 추출된 피처를 입력으로 받아서 우리의 메인 테스크를 하는 레이어들을 이렇게 접붙여서 전체 뉴럴넷을 구성하고, 이를 우리의 메인 데스크를 대상으로, 이를 위해 수집된 데이터를 가지고 학습을 진행하는 것입니다.

여기서 학습 과정 중에는, 새롭게 추가된 이 뒤쪽 레이어는 당연히 랜덤 이니셜라이제이션에서부터 학습을 시작하게 되구요, 이 브레이트레인드 모델로부터 가져온 앞쪽에 레이어들의 경우, 이미 사전 학습 테스트를 통해 유의미한 피처 정보를 추출하고 있는 만큼, 아 예 학습을 진행하지 않고, 사전학습 고정된 바람에 터를 그대로 사용하거나 , 아니면 저희 메인 테스크 를 보다 더 잘 풀기 위한 취지로 학습을 진행하되 여기서는 뒤쪽보다는 러닝메이트를 훨씬 작게 주어서, 미세조조 혹은 말 그대로 파인 튜닝 수행해 주게 됩니다.

이 경우 용어를 잠깐 짚고 넘어가자면, 이렇게 저희 메인 테스크가 따로 있을 때 그전에 셀프와이드 러닝 등을 통해 사전에 모델 학습을 진행하는 과정을 사전학습 혹은 프리트레인이라고 부르고요, 이경우 사용되는 테스크 가령 앞에 계신 경우 인페인팅 데스크에 해당하는 것을 프리트레이닝 테스크라고 부르고요,

이렇게 사전 학습이 완료된 후 그 모델이 배운 티식을 활용하여 우리 메인 데스크의 성능을 올리고자 하는 지금 말씀드린 이러한 방법론을 트랜스퍼 러닝 혹은 견이 학습이라고 부르고, 이 과정을 일컬어 저희는 사전 학습된 모델을 저희 메인 태스크의 학습 과정을 통해 파인튜닝 혹은 미세조정 한다라고 말하고요, 이때 저희가 풀고자 하는 메인 테스크를 타겟 테스크라고 하거나, 혹은 프리트레이닝 태스크 다음에 학습하는 태스크라는 의미로 다운스트림 테스크 혹은 파인튜닝 태스크라고도 부릅니다.

48 of 49

Vision Transformer (ViT)의 장점

ViT의 경우, CNN의 특징인 인접한 영역만을 반영하는 Inductive bias가 없음
JFT-300M 같은 ImageNet보다 대규모의 데이터로 학습을 할 경우,

ResNet 기반의 모델보다 더 좋은 성능을 보임

Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. ICLR. 2021.

48

49 of 49

요약

Computer vision 분야에서의 Transformer 모델의 적용
Vision transformer의 구조 및 학습 방법과 그 활용

49

Transformer Encoder