CNN의 특징: convolution filter들을 순차적으로 이동하면서 생성되는 low level feature은 이전의 grid에 영향을 받고 작은패턴들에 영향을 주지만 (edge, color...) high level feature은 전체적인 shape의 영향을 받게 됩니다 (object..) 단점 : 하지만 한 grid를 볼 때 멀리 떨어져있는 grid를 직접적으로 볼 수 없고 멀리 떨어져있는 grid에 영향을 주지 못합니다. 붉은색 박스들이 멀리 떨어져있으면 동시에 둘 사이의 관계를 (직접적으로) 파악하기는 어렵습니다. 이를 해결하기 위해 같은 level에서 다른 애들을 동시에 참고하고자하는 시도로 attention 기법을 이용한 vision transformer가 나오게 되었습니다. Visi..