본 논문에서 제안한 Transformer는 기존 신경망 기반 기계번역(NMT) 모델이 가진 순차적 계산으로 인한 학습·추론 속도 저하, 장거리 의존성 학습의 어려움, 병렬화의 한계를 해결하기 위해 설계된 완전 어텐션 기반 시퀀스 변환 모델이다. Transformer는 순환(RNN)과 합성곱(CNN) 구조를 완전히 제거하고, 인코더·디코더 각각에 Multi-Head Self-Attention과 Feed-Forward Network를 결합한 블록을 다층으로 적층하는 단순한 구조를 취한다. 디코더에서는 Masked Self-Attention으로 미래 단어 참조를 차단하고, 인코더 출력과 결합하는 Cross-Attention으로 입력 문장의 전역 정보를 활용한다. 또한 단어 순서를 학습하기 위해 Positional Encoding을 추가했으며, 입력·출력 임베딩과 softmax 출력 가중치를 weight tying으로 공유하여 파라미터 효율성을 높였다. 이러한 설계는 RNN 대비 O(1) 수준의 짧은 경로 길이로 장거리 의존성을 효과적으로 학습하게 하고, GPU 병렬화를 통해 학습 속도를 획기적으로 개선하였으며 단순성과 확장성을 동시에 갖춘 Transformer 구조는 이후 BERT, GPT 등 모든 현대적 대규모 언어 모델의 기반이 되며, 자연어 처리뿐 아니라 음성·비전 등 다양한 분야로 확장되는 패러다임의 출발점을 열었다.
Abstract
기존의 주류 Sequence Transduction 모델은 복잡한 순환 신경망(RNN, LSTM, GRU) 또는 합성곱 신경망(CNN)을 기반으로 하며, 보통 인코더와 디코더 구조를 갖는다. 최고의 성능을 내는 모델은 인코더와 디코더를 Attention Mechanism으로 연결했다는 특징이 존재한다.
우리는 새로운 단순한 네트워크 구조인 Transformer를 제안한다. 이 모델은 Attention Mechanism만을 기반으로 하며, 순환 구조와 합성곱 구조를 전혀 사용하지 않는다.
두 개의 기계 번역 과제를 통해 Transformer가 더 높은 번역 품질을 달성함을 보였다. 또한 병렬화가 훨씬 용이하고 학습 시간도 크게 단축된다.
우리 모델은 WMT 2014 영어-독일어 번역 과제에서 BLEU 점수 28.4를 달성하여 기존 최고 성능(앙상블 포함)을 2 BLEU 이상 초과했다. 또, 영어-프랑스어 번역 과제에서 단일 모델 기준 새로운 최고 BLEU 점수 41.0을 달성했으며, 이는 8개의 GPU에서 3.5일간 훈련한 결과다. 이는 기존 최고 모델 대비 학습 비용의 극히 일부에 해당한다.
Introduction
- RNN, LSTM, GRU는 오랫동안 Sequence Modeling과 번역 문제에서 표준 기법이었다.
- 하지만 RNN 기반 모델은 순차적 계산(sequential computation) 때문에 Parallelization가 어렵고, 긴 시퀀스를 학습하기 힘들다.
- 최근 Attention Mechanism은 입력-출력 간의 거리와 상관없이 Dependency를 학습할 수 있는 방법으로 각광받았다. 다만 대부분은 RNN과 결합된 형태였다.
이 논문에서는 순환 신경망을 완전히 제거하고, 오직 어텐션만을 사용하는 Transformer 아키텍처를 제안한다.
Transformer는 병렬화가 훨씬 용이하며, 단 12시간 훈련으로도 최신 번역 성능을 달성할 수 있다.
Background
- 순차 계산을 줄이려는 기존 시도:
- Extended Neural GPU
- ByteNet
- ConvS2S
- 이들은 합성곱을 기반으로 하며 병렬 계산이 가능하다. 하지만 입력 간 거리가 멀어질수록 연산 비용이 커진다.
- Transformer는 이 문제를 해결하여 상수(constant) 단계의 연산만으로도 Long-Term Dependency를 모델링할 수 있다.
또한 Transformer는 Self-Attention을 적극적으로 활용한다. 이는 같은 시퀀스 내 서로 다른 위치를 주목하여 문맥적 표현을 만든다.
Model Architecture
3.1 Encoder and Decoder Stacks
- 인코더 (N = 6):
- Multi-Head Self-Attention
- Feed-Forward Network
- 각 서브레이어에는 Residual Connection과 Layer Normalization을 적용
- 디코더 (N = 6):
- 자기어텐션 시 마스크(masking)를 적용해 미래 토큰을 볼 수 없게 함(Auto-Regressive 특성 유지)
3.2 Attention
(a) Scaled Dot-Product Attention
- 쿼리(Q), 키(K), 값(V) 벡터를 이용
(b) Multi-Head Attention
- 쿼리/키/값을 여러 부분(heads)로 나누어 각각 어텐션을 수행한 뒤 합친다.
- 다양한 표현 공간에서 병렬적으로 정보를 추출 가능.
- h=8개 헤드 사용, 각 head 차원은 64.
3.3 FeedForward Network
- 각 위치별 독립적으로 2층 Fully-Connected 네트워크 적용
- 차원: 입력/출력 512, 내부(hidden) 2048
3.4 Embedding & Softmax
- 입력/출력 토큰을 벡터로 변환하는 임베딩 사용.
- 출력 확률은 선형변환 + 소프트맥스로 계산.
- 가중치 공유(weight tying) 기법을 사용.
3.5 위치 인코딩 (Positional Encoding)
- 순환/합성곱이 없으므로 순서 정보를 추가해야 함.
- 사인/코사인 함수 기반의 주기적 위치 인코딩 사용.
- 학습된 positional embedding도 실험했지만 성능 차이는 거의 없음.
4. Why Self-Attention?
- 계산 복잡도:
- RNN: O(n·d²), 순차적 O(n) 연산
- CNN: O(k·n·d²), 경로 길이 logk(n)
- Self-Attention: O(n²·d), 병렬 O(1), 경로 길이 O(1)
- 장거리 의존성 학습에 유리.
- 해석 가능성: 어텐션 헤드가 문장의 구문/의미 구조를 포착함.
5. Training
- 데이터셋:
- WMT 2014 En-De (450만 문장)
- WMT 2014 En-Fr (3600만 문장)
- 하드웨어:
- 8개의 NVIDIA P100 GPU
- Base 모델: 12시간 (100K steps)
- Big 모델: 3.5일 (300K steps)
- 최적화:
- Adam (β1=0.9, β2=0.98, ε=1e-9)
- 학습률 스케줄: lr = d^-0.5 * min(step^-0.5, step·warmup^-1.5)
- warmup_steps=4000
- 정규화:
- Dropout (0.1~0.3)
- Label Smoothing (ε=0.1)
6. Results
- En-De 번역 (WMT 2014):
- Transformer(Big): BLEU 28.4 (최신 최고 모델보다 +2.0 이상)
- En-Fr 번역 (WMT 2014):
- Transformer(Big): BLEU 41.0 (단일 모델 기준 최고 성능)
- 학습 비용:
- 기존 GNMT 등보다 10배 이상 효율적
7. Conclusion
- Transformer는 최초로 Recurrence을 완전히 제거하고 Attention만으로 동작하는 시퀀스 변환 모델임.
- RNN, CNN 기반 모델보다 빠르고 효율적이며, 번역 품질도 최고 성능 달성.
- 향후 텍스트 외 이미지, 음성, 비디오 등 다양한 입력/출력 Modality로 확장할 수 있음.