Deep Learning/Attention Mechanism

[Vision] Vision transformer - 구현 (작성중)

HUR129 2022. 3. 11. 00:16

vision transformer 에 대한 글입니다

Vision transformer background

https://spicy00.tistory.com/34

https://spicy00.tistory.com/35

 

그렇다면 어떻게 이 모델을 구현하면 좋을까요?

 

언어모델에서의 Transformer model 구현은 인터넷에 많은 참고자료들이 있습니다

 

이와 크게 다르지 않은 모델인데 

 

vision transformer는 transformer의 encoder를 모델로 가져다 사용하게 됩니다.

 

기존의 transformer encoder와 다른 점은 이것인데요

1. patch 전처리

2. initial linear layer

 

순서대로 1,2를 지나 multihead attention... 순으로 진행되게 됩니다.

 

첫번째 차이부터 코드로 알아보도록 하겠습니다

1. Patch

 

이미지를 넣어줄 때 전처리가 중요합니다. patch 단위로 잘라서 image를 넣어주어야 하기 때문이죠.

 

2. Initial linear layer

 

단어 embedding 층을 지나서 positional encoding 이 붙는 기존 transformer와 다르게,

 

vision transformer는 linear layer를 지난 후 positional encoding이 들어갑니다.

'Deep Learning > Attention Mechanism' 카테고리의 다른 글

[Vision] Vision transformer - 개요  (0) 2022.03.09
[Vision] Vision transformer - background  (0) 2022.03.09