Vision Transformer 3

[Vision] Vision transformer - 구현 (작성중)

vision transformer 에 대한 글입니다 Vision transformer background https://spicy00.tistory.com/34 https://spicy00.tistory.com/35 그렇다면 어떻게 이 모델을 구현하면 좋을까요? 언어모델에서의 Transformer model 구현은 인터넷에 많은 참고자료들이 있습니다 이와 크게 다르지 않은 모델인데 vision transformer는 transformer의 encoder를 모델로 가져다 사용하게 됩니다. 기존의 transformer encoder와 다른 점은 이것인데요 1. patch 전처리 2. initial linear layer 순서대로 1,2를 지나 multihead attention... 순으로 진행되게 됩니다...

[Vision] Vision transformer - 개요

이전 transformer를 vision task로 확장한 Vision transformer에 대해 알아보겠습니다 장점 1. Transformer 구조로부터 만들어지는 다양한 확장성 (input, output동일) 2. Large scale dataset에서 cnn대비 증가한 성능 3. cnn대비 전이학습시 연산량의 감소 단점 1. 많은 데이터가 존재해야 효과적인 학습 (inductive bias 부족) 2. translation equivariance 부족 (cnn의 특징) 모델 구조 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR, 2020) - 기존 Word를 image의 patch로 대신합니다 - In..

[Vision] Vision transformer - background

CNN의 특징: convolution filter들을 순차적으로 이동하면서 생성되는 low level feature은 이전의 grid에 영향을 받고 작은패턴들에 영향을 주지만 (edge, color...) high level feature은 전체적인 shape의 영향을 받게 됩니다 (object..) 단점 : 하지만 한 grid를 볼 때 멀리 떨어져있는 grid를 직접적으로 볼 수 없고 멀리 떨어져있는 grid에 영향을 주지 못합니다. 붉은색 박스들이 멀리 떨어져있으면 동시에 둘 사이의 관계를 (직접적으로) 파악하기는 어렵습니다. 이를 해결하기 위해 같은 level에서 다른 애들을 동시에 참고하고자하는 시도로 attention 기법을 이용한 vision transformer가 나오게 되었습니다. Visi..