Deep Learning/Attention Mechanism

[Vision] Vision transformer - 개요

HUR129 2022. 3. 9. 16:49

이전 transformer를 vision task로 확장한 

Vision transformer에 대해 알아보겠습니다

 

장점

1. Transformer 구조로부터 만들어지는 다양한 확장성 (input, output동일)

2. Large scale dataset에서 cnn대비 증가한 성능

3. cnn대비 전이학습시 연산량의 감소

 

단점

1. 많은 데이터가 존재해야 효과적인 학습 (inductive bias 부족)

2. translation equivariance 부족 (cnn의 특징)

 

모델 구조

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR, 2020)

- 기존 Word를 image의 patch로 대신합니다

- Input에 class token, 전처리 외에는 기존 transformer의 encoder와 같은 구조라 같은 input-output 구조을 차용합니다

- 추가적인 detail로는 계속 dropout이 들어간다는 점, gelu함수를 activation function으로 사용한다는 점이 차이가 있습니다

- classification task를 위해서 처음에 앞에 넣은 class token만(학습가능) classification단계에서 떼어서 분류에 사용합니다.