[Vision] Vision transformer - 개요
이전 transformer를 vision task로 확장한 Vision transformer에 대해 알아보겠습니다 장점 1. Transformer 구조로부터 만들어지는 다양한 확장성 (input, output동일) 2. Large scale dataset에서 cnn대비 증가한 성능 3. cnn대비 전이학습시 연산량의 감소 단점 1. 많은 데이터가 존재해야 효과적인 학습 (inductive bias 부족) 2. translation equivariance 부족 (cnn의 특징) 모델 구조 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR, 2020) - 기존 Word를 image의 patch로 대신합니다 - In..