당시 RNN/LSTM은 잠재력은 컸지만, 과적합으로 인해 실제 적용에는 제약이 많았다. Dropout을 이용해 과적합 문제를 해결하려 했던 여러 시도가 있었고, 단순하게 Dropout을 배치해 과적합 문제를 해결했지만, RNN/LSTM의 장점을 묻히게 되었다. 본 논문은 과적합은 RNN과 LSTM의 고질적 문제라는 인식을 뒤집었으며, 정규화가 가능하다면 RNN도 충분히 스케일업할 수 있다는 확신을 심어주었다. 이는 곧 Seq2Seq 모델이나 Neural Machine Translation 연구의 발전을 촉진했다.
1. 연구 배경
순환신경망(Recurrent Neural Networks, RNNs)은 시퀀스 데이터를 처리하는 데 강력한 도구로 자리잡았다. 대표적으로 언어 모델링(Mikolov, 2012), 음성 인식(Graves, 2013), 기계 번역(Kalchbrenner & Blunsom, 2013) 등에서 뛰어난 성능을 보여주었다. 그러나 RNN의 성공적인 적용에는 정규화(regularization)가 필수적이다. 대규모 네트워크는 쉽게 과적합(overfitting)에 빠지기 때문이다.
딥러닝에서 널리 쓰이는 정규화 기법인 Dropout (Srivastava, 2013)은 feed-forward 네트워크에서는 매우 효과적이지만, RNN에 단순히 적용할 경우 성능 저하를 일으킨다는 문제가 있었다. 이는 RNN의 순환 구조(recurrence)가 노이즈를 증폭시켜 학습을 방해하기 때문이다. 따라서 실제 RNN 응용에서는 네트워크 크기를 줄이는 방법으로 과적합을 억제했으나, 이는 모델의 잠재력을 제한하는 결과를 낳았다.
본 논문은 이 문제를 해결하기 위해 LSTM(Long Short-Term Memory) 네트워크에 Dropout을 올바르게 적용하는 방법을 제안하며, 다양한 태스크에서 큰 성능 향상을 보고한다.
2. 관련 연구
Dropout은 뉴런 출력을 일정 확률로 제거함으로써 모델이 개별 뉴런에 과도하게 의존하지 않도록 하고, 집단적이고 일반화된 표현을 학습하도록 유도하는 기법이다. 이후 여러 변형들이 제안되었지만, RNN에 특화된 적용 연구는 제한적이었다.
- Bayer et al. (2013): “marginalized dropout” 방식을 제안했지만, 전통적인 dropout이 RNN에 잘 작동하지 않는다고 주장하였다.
- Pham et al. (2013): 본 논문과 유사한 정규화 방식을 독립적으로 발견해 필기체 인식(handwriting recognition)에 적용하였다.
- Pachitariu & Sahani (2013): LSTM에 dropout을 적용했으나, 일반적이고 보편적인 레시피를 제시하지는 못했다.
본 연구는 이들 시도를 확장하고, 정확히 어디에 dropout을 적용해야 하는가라는 문제에 대한 명확한 해답을 제공한다.
3. LSTM과 정규화 방법
3.1 LSTM 기본 구조
전통적인 RNN은 단순히 이전 hidden state와 현재 입력을 결합해 다음 hidden state를 계산한다. 반면 LSTM은 메모리 셀(cell)과 게이트 구조(input, forget, output gates)를 도입해 장기 의존성(long-term dependency)을 효과적으로 처리한다.
LSTM의 주요 식은 다음과 같다:
- 입력 게이트: i=σ(Wi[ht−1,xt])i
- 망각 게이트: f=σ(Wf[ht−1,xt])
- 출력 게이트: o=σ(Wo[ht−1,xt])
- 후보 상태: g=tanh(Wg[ht−1,xt])g
- 메모리 업데이트: ct=f ⊙ ct−1+ i⊙g
- 출력 hidden: ht=o⊙tanh(ct)h_t
여기서 핵심은, LSTM이 과거 정보를 필요한 만큼 보존하거나 폐기할 수 있는 능력을 가진다는 점이다.
3.2 Dropout의 올바른 적용
저자들은 RNN에서 dropout이 잘 작동하지 않는 이유를 순환(recurrent) 연결에 dropout을 적용하면, 장기 기억에 필요한 정보가 손실되기 때문이라고 설명한다. 따라서 제안된 방법은 다음과 같다:
(순환 연결이란, 정보를 전달하는 경로들이라고 생각하면 이해하기 쉽다.)
- Dropout은 오직 비순환(non-recurrent) 연결에만 적용한다.
- 즉, layer 간 연결이나 입력에서 hidden으로 가는 경로에는 dropout을 적용하지만, hidden state가 시간축을 따라 전달되는 recurrent connection에는 dropout을 적용하지 않는다.
이 방식의 장점은 다음과 같다:
- 장기 기억 보존: 순환 경로가 깨지지 않아 LSTM이 과거 정보를 안정적으로 유지한다.
- 과적합 억제: 비순환 경로에 dropout을 적용하여 표현 학습이 보다 일반화된다.
- 시간축 독립성: 정보가 얼마나 긴 시간 동안 흘러가든 dropout 적용 횟수는 네트워크 깊이에만 의존하므로, 안정적인 학습이 가능하다.
4. 실험 결과
저자들은 제안한 정규화 기법을 네 가지 대표적 과제에서 검증하였다.
4.1 언어 모델링 (Penn Tree Bank, PTB)
- 데이터: 929k 단어(훈련), 73k(검증), 82k(테스트), 어휘 크기 10k.
- 비교 대상: 비정규화 LSTM vs 정규화 LSTM.
- 결과:
- 비정규화 LSTM (2-layer, 200 hidden) → test perplexity: 114.5
- 정규화 Medium LSTM (650 hidden, dropout 50%) → 82.7
- 정규화 Large LSTM (1500 hidden, dropout 65%) → 78.4
- 추가로 모델 앙상블을 적용하면 perplexity가 68.7까지 낮아짐.
- Dropout은 큰 모델의 활용을 가능케 하여, 기존보다 30% 이상 성능 향상을 달성하였다.
4.2 음성 인식 (Icelandic Speech dataset, 93k utterances)
- 평가 지표: frame accuracy
- 결과:
- 비정규화 LSTM: train 71.6%, val 68.9%
- 정규화 LSTM: train 69.4%, val 70.5%
- Dropout이 일반화 성능을 개선했음을 확인.
4.3 기계 번역 (WMT’14 English-French)
- 데이터: 3억 단어 이상, vocab: 영어 160k, 프랑스어 80k.
- 모델: 4-layer LSTM, embedding 1000, dropout 0.2.
- 결과 (BLEU):
- 비정규화 LSTM: 25.9
- 정규화 LSTM: 29.03
- Dropout을 통해 BLEU 점수가 크게 향상됨.
4.4 이미지 캡션 생성 (MSCOCO dataset)
- CNN으로 추출된 이미지 벡터를 LSTM에 입력해 문장을 생성.
- 결과: Dropout 적용 시 단일 모델 성능이 향상되었으며, 앙상블 모델 수준에 근접.
- 간단한 정규화 기법으로도 경쟁력 있는 모델을 만들 수 있음.
5. 결론
본 연구는 LSTM에 dropout을 적용하는 올바른 방법을 제안하였으며, 이를 통해 RNN 계열 모델에서도 dropout이 강력한 정규화 기법으로 활용될 수 있음을 입증했다.
핵심 메시지는 다음과 같다:
- RNN/LSTM은 dropout을 사용할 수 없다는 기존 인식을 뒤집었다.
- 순환 연결은 보호하고, 비순환 연결에만 dropout을 적용하는 간단한 방법으로도 성능이 크게 향상된다.
- 언어 모델링, 음성 인식, 번역, 이미지 캡션 등 다양한 분야에서 보편적으로 적용 가능하다.
6. 의의와 한계
- 의의:
- 당시 RNN/LSTM 연구에서 가장 큰 제약이었던 “과적합 문제”를 획기적으로 완화.
- 대규모 LSTM을 안정적으로 학습시킬 수 있는 길을 열었고, 이후 Seq2Seq 학습이나 Transformer 이전 시대의 기계 번역 연구에 큰 기여를 했다.
- 한계:
- Dropout 확률 등 하이퍼파라미터를 세심하게 조율해야 한다.
- LSTM 외 다른 RNN 구조(Echo State, GRU 등)에 대한 체계적 검증은 부족하다.
- Ensemble이 적용된 경우, dropout의 이득이 상대적으로 줄어든다.
최종 요약
본 논문은 RNN/LSTM에서 dropout을 올바르게 적용하는 방법을 최초로 제시한 연구다. 핵심은 순환 연결에는 dropout을 적용하지 않고, 비순환 연결에만 적용한다는 단순한 규칙이다. 이를 통해 과적합을 방지하면서 장기 기억 능력을 유지할 수 있다. 실험 결과, 언어 모델링에서는 perplexity가 114.5에서 78.4로 크게 개선되었고, 음성 인식·기계 번역·이미지 캡션 등에서도 성능 향상이 확인되었다. 이 연구는 RNN 정규화의 새로운 표준을 제시했으며, 딥러닝 시퀀스 모델 발전에 중요한 이정표가 되었다.