Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (GNMT) (Yonghui Wu, M. Schuster et al.) - [2016 arXiv]
·
AI Research Paper Review/Pre-Transformer
본 논문에서 제안한 구글의 신경망 번역 시스템(GNMT)은 기존 NMT가 가진 느린 학습·추론 속도, 희귀 단어 처리 한계, 원문 일부 누락 문제를 해결하기 위해 설계된 대규모 신경망 기반 번역 모델이다. GNMT는 8층 LSTM 인코더·디코더 구조에 Residual Connection과 병렬화 기법을 적용하여 깊은 네트워크를 안정적으로 학습하고, 디코더의 최하위 층 출력만으로 어텐션을 수행해 계산 병목을 해소했다. 또한 Wordpiece 단위 모델링으로 희귀 단어 문제를 극복하고, 양자화 연산과 TPU를 활용해 실시간 서비스 수준의 추론 속도를 확보했으며, 길이 정규화와 커버리지 패널티를 통해 번역 누락을 줄였다. 그 결과 WMT 벤치마크에서 기존 SOTA를 초월하는 성능을 달성했고, 실제 구글 번역 ..
Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau Attention) (Bahdanau et al.) - [2015 ICLR]
·
AI Research Paper Review/Pre-Transformer
본 논문은 Transformer(2017)의 기반이 되는 연구로, Seq2Seq 이후 SMT 성능에 거의 근접한 End-to-End 구조를 제안한다. 기존 Seq2Seq는 모든 정보를 하나의 벡터에 압축해야 하므로 긴 문장에서 정보 손실이 발생했고, 이는 성능 저하의 주요 원인이었다. 또한 Seq2Seq는 Alignment는 학습하지 않는다. 반면 본 논문에서는 Attention Mechanism을 도입하여, 번역 과정에서 각 타겟 단어가 소스 문장의 어떤 부분에 주목할지를 Soft Alignment로 학습한다. 이를 통해 Alignment와 Translation을 동시에 end-to-end로 학습할 수 있으며, 인코더는 BiRNN을 사용해 각 단어의 앞뒤 문맥까지 반영한 벡터를 생성한다. 당시 혁신적인..
Sequence to Sequence Learning with Neural Networks (Seq2Seq) (Ilya Sutskever, Oriol Vinyals, Quoc V. Le) - [2014 NIPS]
·
AI Research Paper Review/Pre-Transformer
본 논문은 서로 다른 LSTM을 각각 인코더와 디코더로 사용하는 방법으로, Sequence to Sequence에서의 우수한 성능을 거두었다. 이는 Attention Mechanism이 나왔음에도 그 이전 세대의 모델을 단순 인코더와 디코더로 사용함으로써 우수한 성능을 도출했다는 점을 통해 재조명을 할 수 있었다. 또한 Target Sequence를 제외한 Sequence를 역순으로 넣음으로써 Short-Term Dependencies를 얻을 수 있었고, 이는 Long-Term Dependencies를 키우는 역할을 하였다. 본 논문에서 제안한 구조는 특히 통계적 기계번역(SMT)가 주류였던 번역 분야에서의 첫 번째 End-to-End Model이라는 것에 큰 의의가 존재한다. 1. Introduc..
Distributed Representations of Words and Phrases and their Compositionality (Word2Vec) (Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean) - [2013 ANIPS]
·
AI Research Paper Review/Pre-Transformer
본 논문은 단어 임베딩 학습에서 Word2Vec(CBOW, Skip-gram)을 제안하며, 단순 구조로도 대규모 데이터에서 빠르고 고품질의 분산 표현을 학습할 수 있음을 보여주었다. Negative Sampling과 Subsampling 기법은 효율성과 성능을 동시에 확보하는 핵심 요소였으며, 단어 벡터의 선형 연산을 통한 의미적 유추 가능성은 NLP 발전에 큰 영감을 주었다. 비록 문맥에 따른 다의어 처리 한계는 있으나, Word2Vec은 현대 딥러닝 기반 언어모델의 출발점으로서 역사적 의의가 크다. 1. 연구 배경과 문제의식자연어처리(NLP) 분야에서 단어를 어떻게 표현하느냐는 매우 중요한 문제다. 과거에는 단어를 원-핫 벡터(one-hot vector)로 단순하게 표현했지만, 이런 방식은 차원이..
RECURRENT NEURAL NETWORK REGULARIZATION (Zaremba, Sutskever, Vinyals) - [2014 arXiv]
·
AI Research Paper Review/Pre-Transformer
당시 RNN/LSTM은 잠재력은 컸지만, 과적합으로 인해 실제 적용에는 제약이 많았다. Dropout을 이용해 과적합 문제를 해결하려 했던 여러 시도가 있었고, 단순하게 Dropout을 배치해 과적합 문제를 해결했지만, RNN/LSTM의 장점을 묻히게 되었다. 본 논문은 과적합은 RNN과 LSTM의 고질적 문제라는 인식을 뒤집었으며, 정규화가 가능하다면 RNN도 충분히 스케일업할 수 있다는 확신을 심어주었다. 이는 곧 Seq2Seq 모델이나 Neural Machine Translation 연구의 발전을 촉진했다. 1. 연구 배경순환신경망(Recurrent Neural Networks, RNNs)은 시퀀스 데이터를 처리하는 데 강력한 도구로 자리잡았다. 대표적으로 언어 모델링(Mikolov, 2012..