대규모 이미지 인식에서 convolutional network의 깊이가 정확도에 미치는 영향을 조사
3x3 필터를 사용해 깊이가 증가하는 네트워크를 평가
VGG-16
VGG: Visual Geometry Group / 16: 16 layers
VGG 모델은 딥러닝 기반 컴퓨터 비전 모델의 시대를 열었던 [AlexNet(2012)](http://imagenet%20classification%20with%20deep%20convolutional%20neural%20networks/)의 8-layers 모델보다 깊이가 2배 이상 깊은 네트워크의 학습에 성공했으며, 이를 통해 ImageNet Challenge에서 AlexNet의 오차율을 절반(16.4 > 7.3)으로 줄였다.
VGG 모델이 16–19 레이어에 달하는 깊은 신경망을 학습할 수 있었던 것은 모든 합성곱 레이어에서 3x3 필터를 사용했기 때문이다.
VGG 모델 이전에 Convolutional Network를 활용하여 이미지 분류에서 좋은 성과를 보였던 모델들은 비교적 큰 Receptive Field를 갖는 11x11필터나 7x7 필터를 포함한다.
그러나 VGG 모델은 오직 3x3 크기의 작은 필터만 사용했음에도 이미지 분류 정확도를 비약적으로 개선시켰다.
3x3 filter를 사용할 경우 3-layer convolution을 반복했을 때 원본 이미지의 7x7 영역을 수용할 수 있다.
7x7 filter를 이용해 한번 convolution을 수행했을때 보다 3x3 filter로 3번 convolution을 수행했을때의 장점
각 Convolution 연산은 ReLU 함수를 포함한다. 다시 말해, 1-layer 7x7 필터링의 경우 한 번의 비선형 함수가 적용되는 반면 3-layer 3x3 필터링은 세 번의 비선형 함수가 적용된다.
따라서, 레이어가 증가함에 따라 비선형성이 증가하게 되고 이것은 모델의 특징 식별성 증가로 이어진다.
Convolutional Network 구조를 학습할 때, 학습 대상인 가중치(weight)는 필터의 크기에 해당한다.