[Vision] Vision transformer - 구현 (작성중)

Deep Learning/Attention Mechanism

HUR129 2022. 3. 11. 00:16

vision transformer 에 대한 글입니다

Vision transformer background

그렇다면 어떻게 이 모델을 구현하면 좋을까요?

언어모델에서의 Transformer model 구현은 인터넷에 많은 참고자료들이 있습니다

이와 크게 다르지 않은 모델인데

vision transformer는 transformer의 encoder를 모델로 가져다 사용하게 됩니다.

기존의 transformer encoder와 다른 점은 이것인데요

1. patch 전처리

2. initial linear layer

순서대로 1,2를 지나 multihead attention... 순으로 진행되게 됩니다.

첫번째 차이부터 코드로 알아보도록 하겠습니다

1. Patch

이미지를 넣어줄 때 전처리가 중요합니다. patch 단위로 잘라서 image를 넣어주어야 하기 때문이죠.

2. Initial linear layer

단어 embedding 층을 지나서 positional encoding 이 붙는 기존 transformer와 다르게,

vision transformer는 linear layer를 지난 후 positional encoding이 들어갑니다.

[Vision] Vision transformer - 개요 (0)	2022.03.09
[Vision] Vision transformer - background (0)	2022.03.09

HUR Lab

공부한것을 정리하는 블로그입니다

tensorflow 2, 백준 7795 파이썬, 백준 11399 파이썬, pytorch error, 파이썬 error, resnet50, 알고리즘 테스트, 백준 10610 파이썬, 백준 18870 파이썬, 백준 8979 파이썬, 백준 2309 파이썬, pyTorch, 백준 18310 파이썬, 알고리즘 테스트 #백준 2750 파이썬 #백준 2751 파이썬, Vision Transformer, flutter list generate, 백준 1181 파이썬, 백준 1431 파이썬, 백준 1302 파이썬, 백준 2012 파이썬,

HUR Lab