VGGNet.pdf

대규모 이미지 인식에서 convolutional network의 깊이가 정확도에 미치는 영향을 조사

3x3 필터를 사용해 깊이가 증가하는 네트워크를 평가

VGG-16

VGG: Visual Geometry Group / 16: 16 layers

VGG 모델은 딥러닝 기반 컴퓨터 비전 모델의 시대를 열었던 [AlexNet(2012)](http://imagenet%20classification%20with%20deep%20convolutional%20neural%20networks/)의 8-layers 모델보다 깊이가 2배 이상 깊은 네트워크의 학습에 성공했으며, 이를 통해 ImageNet Challenge에서 AlexNet의 오차율을 절반(16.4 > 7.3)으로 줄였다.

VGG 모델이 16–19 레이어에 달하는 깊은 신경망을 학습할 수 있었던 것은 모든 합성곱 레이어에서 3x3 필터를 사용했기 때문이다.

VGG 모델 이전에 Convolutional Network를 활용하여 이미지 분류에서 좋은 성과를 보였던 모델들은 비교적 큰 Receptive Field를 갖는 11x11필터나 7x7 필터를 포함한다.

그러나 VGG 모델은 오직 3x3 크기의 작은 필터만 사용했음에도 이미지 분류 정확도를 비약적으로 개선시켰다.

1_Cgmz_DcTQXVPGMsKekDObQ.webp

1_Cb8p7EzcWYDHUzMBYI-yyw.webp

1_E9DiwjWyLU-aQU-knOtv3g.webp

3x3 filter를 사용할 경우 3-layer convolution을 반복했을 때 원본 이미지의 7x7 영역을 수용할 수 있다.

7x7 filter를 이용해 한번 convolution을 수행했을때 보다 3x3 filter로 3번 convolution을 수행했을때의 장점

  1. 결정 함수의 비 선형성 증가

각 Convolution 연산은 ReLU 함수를 포함한다. 다시 말해, 1-layer 7x7 필터링의 경우 한 번의 비선형 함수가 적용되는 반면 3-layer 3x3 필터링은 세 번의 비선형 함수가 적용된다.

따라서, 레이어가 증가함에 따라 비선형성이 증가하게 되고 이것은 모델의 특징 식별성 증가로 이어진다.

  1. 학습 파라미터 수의 감소

Convolutional Network 구조를 학습할 때, 학습 대상인 가중치(weight)는 필터의 크기에 해당한다.