Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau Attention) (Bahdanau et al.) - [2015 ICLR]

2025. 8. 26. 11:49·AI Research Paper Review/Pre-Transformer

 

 

본 논문은 Transformer(2017)의 기반이 되는 연구로, Seq2Seq 이후 SMT 성능에 거의 근접한 End-to-End 구조를 제안한다. 기존 Seq2Seq는 모든 정보를 하나의 벡터에 압축해야 하므로 긴 문장에서 정보 손실이 발생했고, 이는 성능 저하의 주요 원인이었다. 또한 Seq2Seq는 Alignment는 학습하지 않는다. 반면 본 논문에서는 Attention Mechanism을 도입하여, 번역 과정에서 각 타겟 단어가 소스 문장의 어떤 부분에 주목할지를 Soft Alignment로 학습한다. 이를 통해 Alignment와 Translation을 동시에 end-to-end로 학습할 수 있으며, 인코더는 BiRNN을 사용해 각 단어의 앞뒤 문맥까지 반영한 벡터를 생성한다. 당시 혁신적인 부분은 alignment를 정답 정렬 데이터 없이 end-to-end로 attention weight α_ij 자체를 학습하였다는 것이다. 마지막으로 본 논문은 Neural Machine Translation에서 최초로 alignment와 translation을 통합 학습한 연구라는 점에서 큰 의의가 있다.

 

 

1. 연구 배경

  • 전통적 기계번역(SMT)
    • 여러 모듈(언어모델, 번역모델, 정렬모델 등)로 분리되어 각각 학습
    • 복잡한 설계와 수작업이 많이 필요
  • 신경망 기반 기계번역(NMT, Seq2Seq, 2014)
    • 인코더–디코더 구조
    • 인코더가 소스 문장을 하나의 고정 벡터 c 로 압축 → 디코더가 이를 기반으로 번역
    • 장점: end-to-end 학습 가능, 단순 구조
    • 한계: 긴 문장에서 성능 급락 (모든 정보를 벡터 하나에 다 담아야 함 → 정보 손실)

 

2. 연구 목표

  • 고정 벡터에 모든 정보를 압축해야 하는 병목 문제(bottleneck) 해결
  • 정렬(alignment)과 번역(translation)을 동시에 학습하는 새로운 NMT 구조 제안
  • 디코더가 단어를 생성할 때마다 소스 문장의 관련 부분을 soft하게 검색(soft alignment) 하도록 설계

 

3. 제안 방법: Bahdanau Attention

[1] 인코더

  • 기존처럼 마지막 hidden state만 쓰지 않고, 소스 문장의 각 단어 위치마다 hidden state h_j 를 생성
  • BiRNN(양방향 RNN)을 사용 → 각 단어는 앞뒤 문맥 정보를 모두 반영

[2] 디코더

  • 디코더는 단어 y_i를 생성할 때, 고정 벡터가 아니라 동적 context vector c_i 를 사용

  • 여기서 α_ij는 softmax 확률

 

h_j: 소스 단어 x_j의 hidden state

s_i−1: 디코더의 이전 상태 (지금까지 번역된 문맥)

a(⋅): alignment model (FeedForward NN)

 

  • 따라서, 매 타겟 단어마다 context vector가 달라짐.
  • 이로써 인코더는 문장 전체를 하나의 벡터로 압축할 부담에서 해방

 

 

4. 실험 설정

  • 데이터: WMT 2014 English–French 병렬 Corpus (~348M 단어)
  • 모델:
    • RNNencdec (기본 Seq2Seq)
    • RNNsearch (Attention 모델)
  • 어휘: 상위 30,000 단어 (나머지는 [UNK])
  • 학습: Adadelta, Mini-Batch 80, 5일간 학습
  • 평가: BLEU 점수, beam search 사용

 

 

5. 결과

[1] 정량적 결과 (BLEU)

  • Attention 모델(RNNsearch)이 항상 기본 seq2seq(RNNencdec)보다 우수
  • 긴 문장에서 성능 격차가 더 큼
  • RNNsearch-50은 BLEU ~26–28점으로, SMT(Moses, BLEU ~33점)에 거의 근접

[2] 정성적 결과

  • Alignment heatmap을 시각화하면, 소스 단어와 타겟 단어 간 soft alignment가 언어학적으로 타당하게 형성됨
    • 예: European Economic Area → zone économique européenne
    • 어순이 달라도 올바르게 정렬.
  • 긴 문장 번역 성능 비교:
    • 기존 SeqSseq는 문장 중반 이후 정보 손실, 의미 왜곡 발생
    • Attention 모델은 끝까지 의미 보존, 자연스러운 번역 생성

 

 

6. 관련 연구 대비

  • Graves (2013): 필기 합성에서 Monotonic Alignment → 번역에는 한계
  • 기존 Neural MT 연구: 주로 기존 SMT에 신경망 컴포넌트를 추가(phrase score 등)
  • 본 논문: 순수 신경망 기반, end-to-end 구조로 정렬과 번역을 동시에 학습 → 새로운 패러다임

 

 

7. 결론

  • Bahdanau Attention은 NMT에서 fixed vector 병목 문제를 해결
  • 디코더가 어텐션 메커니즘을 통해 소스 문장의 관련 부분을 동적으로 참조 → 긴 문장 번역 가능
  • 성능은 기존 SMT에 거의 근접하며, 신경망 기반 번역이 실용화될 가능성을 처음 보여줌
  • 남은 과제: 희귀 단어 처리([UNK] 문제). → 이후 BPE(subword) 연구로 이어짐

 

 

8. 학문적 의의

  • Alignment와 Translation을 동시에 학습한 최초의 NMT 논문.
  • 어텐션 개념을 제시 → 이후 모든 딥러닝 시퀀스 모델의 핵심 아이디어로 확산 (Transformer 등).
  • SMT에서 NMT로의 패러다임 전환을 이끈 기념비적 연구.

'AI Research Paper Review > Pre-Transformer' 카테고리의 다른 글

Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (GNMT) (Yonghui Wu, M. Schuster et al.) - [2016 arXiv]  (3) 2025.08.26
Sequence to Sequence Learning with Neural Networks (Seq2Seq) (Ilya Sutskever, Oriol Vinyals, Quoc V. Le) - [2014 NIPS]  (0) 2025.08.23
Distributed Representations of Words and Phrases and their Compositionality (Word2Vec) (Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean) - [2013 ANIPS]  (3) 2025.08.23
RECURRENT NEURAL NETWORK REGULARIZATION (Zaremba, Sutskever, Vinyals) - [2014 arXiv]  (0) 2025.08.23
Finding Structure in Time (RNN) (Jeffrey L. Elman) - [1990 Cognitive Science]  (0) 2025.08.23
'AI Research Paper Review/Pre-Transformer' 카테고리의 다른 글
  • Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (GNMT) (Yonghui Wu, M. Schuster et al.) - [2016 arXiv]
  • Sequence to Sequence Learning with Neural Networks (Seq2Seq) (Ilya Sutskever, Oriol Vinyals, Quoc V. Le) - [2014 NIPS]
  • Distributed Representations of Words and Phrases and their Compositionality (Word2Vec) (Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean) - [2013 ANIPS]
  • RECURRENT NEURAL NETWORK REGULARIZATION (Zaremba, Sutskever, Vinyals) - [2014 arXiv]
CKtrace
CKtrace
개인 공부 내용 기록을 위한 블로그입니다.
  • CKtrace
    CKtrace's Devlog
    CKtrace
  • 전체
    오늘
    어제
    • My Traces (65) N
      • AI Research Paper Review (19) N
        • Basic & Milestones of DL (3)
        • Vision (3)
        • Pre-Transformer (7)
        • Post-Transformer (6) N
      • AI (5)
        • DL & ML (5)
        • Data Analysis (0)
      • Statistics (19)
      • DB (16)
      • Python (6)
  • My Links

    • GitHub
  • Categories

    llm
    Vision
    기초 통계학
    머신러닝
    Database
    인공지능
    딥러닝
    NLP
  • hELLO· Designed By정상우.v4.10.4
CKtrace
Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau Attention) (Bahdanau et al.) - [2015 ICLR]
상단으로

티스토리툴바