Going Deeper with Convolutions (Szegedy et al.) - [2015 CVPR]

2025. 8. 21. 13:09·AI Research Paper Review/Vision

 

 

 

본 논문에서는 GoogLeNet을 소개한다. AlexNet부터 VGGNet까지 모델의 깊이와 성능이 비례한다는 사실을 이용하여 성능 향상을 도모했지만, 네트워크의 깊이가 깊어질수록 연산량 문제와 과적합 문제에 대해 언급하며 이를 해결하고자 Inception 모듈을 소개한다. Inception 모듈을 통해 sparse 구조를 dense 구조로 근사하였고, 특히, 1x1 Conv + ReLU로 차원 축소와 비선형성까지 더하는 효과까지 내었다는 점에서 큰 의의가 있다. 즉, 본 논문은 단순히 큰 모델이 아닌, 주어진 자원을 효율적으로 배분하여 깊이 있는 모델을 만들고자 하였다.

 

 

 

1. 연구 배경

2012년 AlexNet이 ILSVRC에서 압도적인 성능을 보이며 딥러닝 기반 비전 연구의 전환점이 되었고, 이어서 VGGNet 등이 더 깊고 큰 네트워크로 성능을 끌어올렸다. 그러나 단순히 크기만 늘리는 방식은 두 가지 문제를 야기했다.

  1. 파라미터 수 증가 → 과적합 위험
  2. 연산량 폭증 → 계산 효율성 저하

또한 모바일이나 임베디드 환경처럼 계산 자원이 제한된 장치에서도 효율적으로 동작하는 모델이 필요했다. Szegedy 등은 이런 문제를 해결하기 위해 희소 구조(sparse structure)를 효율적으로 근사하는 Inception 모듈을 제안한다.

 

 

 

2. 핵심 아이디어

Inception 아키텍처의 철학은 크게 두 가지다.

  1. 다중 스케일 처리 (Multi-scale processing)
    • 입력 특징을 다양한 크기의 필터(1×1, 3×3, 5×5)와 풀링을 병렬로 적용해 동시에 여러 스케일의 정보를 추출한다.
    • 이는 생물학적 시각 시스템(다양한 크기의 수용장)에서 영감을 얻은 방식이다.
  2. 계산 효율성 확보 (Dimensionality reduction)
    • 1×1 convolution을 활용하여 채널 수를 줄여 연산량을 크게 감소시킨다.
    • 이 1×1 conv는 단순히 차원 축소 역할뿐 아니라 ReLU 활성화를 통해 비선형성을 추가하는 이점도 가진다.

결과적으로 Inception 모듈은 “희소 구조를 dense 연산으로 근사”하는 전략이라고 볼 수 있다. 즉, 이론적으로는 일부 연결만 존재하는 희소한 신경망이 최적일 수 있지만, 실제 하드웨어에서는 희소 연산이 비효율적이므로 여러 크기의 convolution을 병렬로 붙이고, 그 전에 1×1 conv로 차원을 줄여 연산을 통제하는 것이다.

“희소 구조를 dense 연산으로 근사”에 대한 추가 설명

  • GPU/CPU는 “dense 연산”(예: 행렬곱)을 빠르게 최적화해놨지만, “sparse 연산”(필요한 것만 연산)은 비효율적이다.
    • 이유: 메모리 접근 비용, 캐시 미스, 인덱싱 오버헤드 때문에 실제로는 더 느려질 수 있음.
  • 따라서 이론적으로는 sparse가 좋지만, 실제 구현에서는 dense를 써야 효율적인 상황이 발생한다.
    • 이러한 이유들로 희소 구조를 dense 연산으로 근사하여 해당 문제를 해결하고자 했다.

 

 

3. 네트워크 설계 (GoogLeNet)

ILSVRC 2014에서 사용된 GoogLeNet은 22층 깊이를 가지며(파라미터 층 기준), 전체적으로는 100개에 가까운 모듈/연산 블록으로 구성된다.

  • 입력: 224×224 RGB 이미지
  • 구조:
    • 초기 몇 층은 전통적인 conv + pooling
    • 중간부터는 Inception 모듈을 반복적으로 쌓음
    • Global average pooling을 활용해 마지막 fully-connected 층을 대체 (파라미터 절약 효과 큼)
  • 추가 기법:
    • 중간 계층(예: Inception 4a, 4d)에 보조 분류기(auxiliary classifier)를 연결해 학습 안정화 및 규제(regularization) 효과 부여
    • 드롭아웃(40%) 적용
  • 연산 효율성:
    • AlexNet 대비 12배 적은 파라미터로 더 높은 성능을 달성
    • 연산량은 약 1.5B multiply-adds 수준으로 제한

 

 

4. 학습 방법

  • 비동기(Asynchronous) SGD + momentum 0.9
    • Vanilla SGD는 미니배치를 뽑아 계산 후 파라미터를 업데이트 하는 과정을 순차적으로 진행한다. 그러나 모델이 크거나 데이터가 너무 커서 여러 Worker(Server/CPU/GPu)가 동시에 학습하는 경우, 특정 Worker의 처리 속도가 느리면 Vanilla SGD와 같이 동기 방식을 사용하면 느린 Worker의 학습이 끝나고 파라미터가 업데이트 될 때까지 기다려야 한다. 이러한 문제 때문에 본 연구에서는 비동기 방식을 채택했는데, 해당 방식은 각 Worker가 독립적으로 parameter server에 gradient를 보내 업데이트를 하고 Worker는 parameter server에서 요청한 기준으로 최신인 파라미터를 받아와 학습을 계속하여, 대기하는 Worker가 없도록 한다. 하지만 어떤 worker는 오래전에 받아온 파라미터로 gradient를 계산할 수 있어, 업데이트가 불안정해질 가능성이 존재하여 Stability를 위해 momentum과 같은 학습률 조정이 필요하다.
  • 학습률은 매 8 epoch마다 4%씩 감소
  • Polyak averaging을 통해 최종 모델 안정화
    • Polyak averaging : 학습 후반으로 갈수록 loss는 진동(oscillation)하면서 줄어드는데, 이때 마지막 스텝의 θ 하나만 쓰면 불안정할 수 있기에, 학습 과정에서의 파라미터들을 평균내서 최종 파라미터로 쓰는 방법
  • 데이터 증강:
    • 다양한 크기의 랜덤 crop
    • 색상 왜곡, 조명 변화 등 photometric distortion 활용

 

 

5. ILSVRC 2014 결과

  • 분류(Classification):
    • Top-5 error: 6.67% (1위, external data 미사용)
    • 이전 우승팀 대비 약 40~50% 오차 감소
    • 단일 모델도 성능이 높았지만, 7개 모델 앙상블과 144 crop 테스트를 통해 최종 점수 달성
  • 탐지(Detection):
    • R-CNN 구조를 기반으로 하되, 특징 추출기로 Inception 사용
    • Selective search와 MultiBox region proposal을 결합해 제안 박스 품질 개선
    • mAP: 43.9% (1위)

 

 

6. 기여와 의의

  1. 효율적 딥러닝 아키텍처
    • 단순히 층과 필터를 늘리는 brute-force 방식이 아니라, 연산량 대비 성능 효율을 극대화한 사례다.
  2. Inception 모듈
    • CNN 설계에 “다중 스케일 처리 + 차원 축소”라는 표준적인 블록 개념을 도입. 이후 Inception v2, v3, v4 등으로 발전했다.
  3. 실용적 영향
    • 파라미터 수가 적어 메모리 사용량이 줄고, 모바일/임베디드 환경에도 적용 가능성이 열렸다.
    • classification과 detection 모두에서 SOTA를 달성하여 CNN이 전통 비전 기법을 대체하는 전환점을 마련했다.

 

 

7. 결론

이 논문은 희소 구조의 이론적 최적 형태를 dense 연산으로 근사하는 Inception 아키텍처를 제안했고, GoogLeNet을 통해 ILSVRC 2014에서 압도적인 성능을 입증했다. 핵심 교훈은 “무조건 큰 모델이 답은 아니다. 주어진 계산 자원을 효율적으로 배분해야 한다”는 것이다. 또한 auxiliary classifier, global average pooling, 1×1 conv 활용 등은 이후 CNN 연구와 실무에 널리 영향을 미쳤다.

'AI Research Paper Review > Vision' 카테고리의 다른 글

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION (Karen Simonyan & Andrew Zisserman) - [2015 ICLR]  (0) 2025.08.21
ImageNet Classification with Deep Convolutional Neural Networks (AlexNet) (Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton) - [2012 NIPS]  (0) 2025.08.21
'AI Research Paper Review/Vision' 카테고리의 다른 글
  • VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION (Karen Simonyan & Andrew Zisserman) - [2015 ICLR]
  • ImageNet Classification with Deep Convolutional Neural Networks (AlexNet) (Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton) - [2012 NIPS]
CKtrace
CKtrace
개인 공부 내용 기록을 위한 블로그입니다.
  • CKtrace
    CKtrace's Devlog
    CKtrace
  • 전체
    오늘
    어제
    • My Traces (70) N
      • AI Research Paper Review (24) N
        • Basic & Milestones of DL (3)
        • Vision (3)
        • Pre-Transformer (7)
        • Post-Transformer (11) N
      • AI (5)
        • DL & ML (5)
        • Data Analysis (0)
      • Statistics (19)
      • DB (16)
      • Python (6)
  • My Links

    • GitHub
  • Categories

    딥러닝
    llm
    Database
    기초 통계학
    NLP
    Vision
    머신러닝
    인공지능
  • hELLO· Designed By정상우.v4.10.4
CKtrace
Going Deeper with Convolutions (Szegedy et al.) - [2015 CVPR]
상단으로

티스토리툴바