본 논문에서 제안한 구글의 신경망 번역 시스템(GNMT)은 기존 NMT가 가진 느린 학습·추론 속도, 희귀 단어 처리 한계, 원문 일부 누락 문제를 해결하기 위해 설계된 대규모 신경망 기반 번역 모델이다. GNMT는 8층 LSTM 인코더·디코더 구조에 Residual Connection과 병렬화 기법을 적용하여 깊은 네트워크를 안정적으로 학습하고, 디코더의 최하위 층 출력만으로 어텐션을 수행해 계산 병목을 해소했다. 또한 Wordpiece 단위 모델링으로 희귀 단어 문제를 극복하고, 양자화 연산과 TPU를 활용해 실시간 서비스 수준의 추론 속도를 확보했으며, 길이 정규화와 커버리지 패널티를 통해 번역 누락을 줄였다. 그 결과 WMT 벤치마크에서 기존 SOTA를 초월하는 성능을 달성했고, 실제 구글 번역 서비스에서도 기존 통계적 번역 시스템 대비 약 60%의 오류 감소를 이루며 인간 번역 품질에 근접하는 성과를 보여주었다.
1. 연구 배경과 문제의식
기계번역은 오랫동안 통계적 기계번역(Statistical Machine Translation, SMT), 특히 구문 기반 번역(Phrase-Based MT, PBMT) 방식이 주류를 차지해왔다. PBMT는 병렬 코퍼스에서 통계적으로 추출된 구문 단위(phrases)를 기반으로 번역을 수행하며, 여러 세부 기법(언어모델, 정렬모델, 문장 재배열 등)을 결합해 높은 성능을 달성했다. 그러나 이런 방식은 설계가 복잡하고 언어 간 차이에 따라 세부 규칙을 새롭게 만들어야 하는 등 확장성에 한계가 있었다.
반면 신경망 기계번역(Neural Machine Translation, NMT)은 입력 문장에서 출력 문장으로의 매핑을 엔드투엔드(end-to-end)로 학습하는 방식을 채택한다. 대표적으로 시퀀스-투-시퀀스(Seq2Seq) 모델과 어텐션(attention) 메커니즘이 널리 사용된다. 그러나 초기 NMT 시스템은 다음과 같은 한계를 가지고 있었다:
- 훈련 및 추론 속도 문제: 모델이 깊고 매개변수가 많아 학습 시간이 길고, 추론 시에도 속도가 느렸다.
- 희귀 단어 처리 한계: 기존 단어 기반 모델은 어휘 사전에 없는 단어(OOV)에 취약했다.
- 번역 누락 문제: 긴 문장이나 복잡한 구문에서 입력의 일부를 번역하지 않고 누락하는 경우가 발생했다.
구글 연구진은 이러한 문제를 해결하기 위해 대규모 실 서비스(Google Translate)에 적용 가능한 구글 신경망 번역 시스템(GNMT)을 개발했다.
2. 모델 아키텍쳐
GNMT는 전형적인 Encoder–Decoder 구조를 기반으로 한다.
- 인코더(Encoder): 입력 문장을 Vector Sequence로 변환한다. 첫 번째 층은 양방향(bi-directional) LSTM, 나머지 7개 층은 단방향 LSTM으로 구성된다.
- 디코더(Decoder): 인코더가 생성한 벡터를 바탕으로 번역 문장을 한 단어씩 생성한다. 8개의 LSTM 층으로 구성된다.
- 어텐션(Attention): 디코더가 각 단계에서 인코더의 어느 부분을 참고해야 하는지 학습한다. GNMT에서는 병렬성을 위해 디코더의 하위 층 출력과 인코더의 최상위 층 출력을 연결한다.
2.1 잔차 연결(Residual Connections)
깊은 LSTM을 단순히 쌓으면 학습이 불안정해진다. 이를 해결하기 위해 Residual Connection을 적용하여, 하위 LSTM의 입력과 출력을 더해 상위 층으로 전달했다. 이는 기울기 흐름을 원활히 하여 8층 이상의 심층 LSTM 학습을 가능하게 했다.
2.2 병렬 처리(Model Parallelism)
- 인코더와 디코더의 각 층을 서로 다른 GPU에 분산시켜 학습 속도를 높였다.
- Softmax 계층도 분할해 병렬 계산을 수행했다.
- 이러한 구조 덕분에 대규모 코퍼스(수천만 문장)를 약 일주일 내 학습할 수 있었다.
3. 어휘 처리와 희귀 단어 문제 해결
3.1 Wordpiece Model
GNMT의 핵심 혁신 중 하나는 Wordpiece 단위 모델링이다. 이는 단어를 더 작은 Subword 단위로 분해하여, OOV 문제를 근본적으로 해결한다.
- 예: Jet → “J” + “et”
- 약 8k~32k 개의 wordpiece 사전을 사용하며, 입력과 출력에서 동일한 사전을 공유한다.
- 이 접근은 단어 기반 모델의 효율성과 문자 기반 모델의 유연성을 동시에 제공한다.
3.2 혼합 단어/문자 모델
두 번째 접근은 OOV 단어를 문자 단위로 변환하여 처리하는 방식이다. 예를 들어 “Miki”는 <B>M <M>i <M>k <E>i로 분해된다. 그러나 GNMT에서는 wordpiece가 더 효과적임이 확인되었다.
4. 학습 기준(Training Criteria)
기본적으로 Maximum Likelihood,(MLE)으로 학습한다. 하지만 이는 BLEU 점수와 같은 번역 품질 지표와 항상 일치하지 않는다. 따라서 GNMT는 강화학습(Reinforcement Learning, RL)을 통해 모델을 추가로 정제했다.
- GLEU 점수: 문장 단위 평가를 위해 BLEU의 변형 지표를 사용했다. n-그램의 정밀도와 재현율 중 최소값을 취한다.
- 혼합 목표 함수 α≈0.017
실험 결과 RL은 BLEU 점수를 소폭 향상시켰으나, 사람이 평가한 번역 품질에서는 큰 차이가 없었다는 점을 확인하였다.
5. 양자화(Quantization)와 추론 최적화
실서비스 배포를 위해 추론 속도 최적화가 필수적이었다. GNMT는 양자화(Quantization) 기법을 도입하여 8비트 정수 연산으로 LSTM을 계산하도록 했다.
- 학습 단계에서는 부동소수점으로 학습하되, 클리핑(clipping)을 적용해 양자화 가능한 형태로 제약을 걸었다.
- 추론 단계에서는 8비트 곱셈, 16비트 누산기를 사용했다.
- TPU(Tensor Processing Unit) 상에서 추론 시 CPU 대비 3.4배 빠른 속도를 달성하면서 BLEU 성능 손실은 없었다.
6. 디코더와 빔 서치 개선
GNMT는 단순 확률 기반 빔 서치 대신, 길이 정규화(length normalization)와 커버리지 패널티(coverage penalty)를 도입했다.
- 길이 정규화: 긴 문장이 불리하게 평가되는 문제를 보정.
- 커버리지 패널티: 입력 문장의 모든 부분이 번역에 반영되도록 유도.
이 기법을 적용하면 BLEU 점수가 최대 1.1 상승했다.
7. 실험 및 결과
7.1 공개 벤치마크
- WMT’14 영어→프랑스어: BLEU 38.95 (단일 모델), RL 후 39.92, 8개 모델 앙상블 시 41.16
- WMT’14 영어→독일어: BLEU 24.61 (단일 모델), RL 후 24.60, 앙상블 시 26.30
- → 기존 PBMT 대비 각각 +7 BLEU, +4 BLEU 향상.
7.2 내부 프로덕션 데이터
- 수천만~수억 문장 규모의 구글 번역 코퍼스에서 평가.
- 인간 평가 기준으로 PBMT 대비 번역 오류 약 60% 감소.
- 영어↔프랑스어, 영어↔스페인어, 영어↔중국어 모두에서 유사한 결과.
예: 영어→스페인어
- PBMT 평균 점수: 4.885
- GNMT: 5.428
- Human: 5.504
- → GNMT가 인간 번역과 거의 비슷한 수준에 도달함.
8. 결론
GNMT 연구는 NMT가 실제 대규모 서비스에서도 적용 가능함을 보여준 첫 성과라 할 수 있다. 주요 기여점은 다음과 같다:
- Wordpiece 모델링을 통해 희귀 단어 및 대규모 어휘 문제 해결.
- 8층 LSTM + Residual Connections로 심층 신경망 학습 안정화.
- 모델 및 데이터 병렬화를 통한 대규모 학습 효율화.
- 양자화 및 TPU 활용으로 실시간 번역 서비스 제공 가능.
- 길이 정규화·커버리지 패널티로 디코딩 품질 개선.
- 공개 벤치마크와 실제 서비스 모두에서 PBMT를 압도, 인간 번역 품질에 근접.
GNMT는 이후 Transformer 기반 번역 모델(예: Attention is All You Need)로 이어지는 NMT 혁신의 초석이 되었다.