배경

CNN이 translation invariance한 성질(by Softmax)로 통계 값이 같으면 같은 것으로 본다. 위치 이동해도 학습 없이 같은 것으로 볼 수 있는 장점이 있지만, 이미지 한장에서 오브젝트를 찾을 때 이미지의 회전, 사이즈 스케일이 발생하면 클레시피케이션도 인식이 안된다. 그리고 이미지의 회전, 사이즈 스케일이 발생하면 자연스럽게 Regression(네 점 맞추는) 문제도 같이 발생한다. 이렇게 변형된 환경에 대한 새로운 학습데이터가 없는 경우 정확도는 거의 0에 가깝다.

Convolutional Networks (FCL 하다)

CNN: Convolutional Neural Network( Convnets)

이런 점 때문에 추가적인 data augmentation 작업이 필요한데, 이렇게 사이즈 스케일링의 변화에 대한 해결과정이 오브젝트 디텍션 과정이다

(-> 이후 CNN 기법을 제외한 비전 트렌스포머 등의 방식이 새롭게 도입된다)