Sequence to Sequence Learning with Neural Networks (Seq2Seq) (Ilya Sutskever, Oriol Vinyals, Quoc V. Le) - [2014 NIPS]
·
AI Research Paper Review/NLP
본 논문은 서로 다른 LSTM을 각각 인코더와 디코더로 사용하는 방법으로, Sequence to Sequence에서의 우수한 성능을 거두었다. 이는 Attention Mechanism이 나왔음에도 그 이전 세대의 모델을 단순 인코더와 디코더로 사용함으로써 우수한 성능을 도출했다는 점을 통해 재조명을 할 수 있었다. 또한 Target Sequence를 제외한 Sequence를 역순으로 넣음으로써 Short-Term Dependencies를 얻을 수 있었고, 이는 Long-Term Dependencies를 키우는 역할을 하였다. 본 논문에서 제안한 구조는 특히 통계적 기계번역(SMT)가 주류였던 번역 분야에서의 첫 번째 End-to-End Model이라는 것에 큰 의의가 존재한다. 1. Introduc..
Distributed Representations of Words and Phrases and their Compositionality (Word2Vec) (Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean) - [2013 ANIPS]
·
AI Research Paper Review/NLP
본 논문은 단어 임베딩 학습에서 Word2Vec(CBOW, Skip-gram)을 제안하며, 단순 구조로도 대규모 데이터에서 빠르고 고품질의 분산 표현을 학습할 수 있음을 보여주었다. Negative Sampling과 Subsampling 기법은 효율성과 성능을 동시에 확보하는 핵심 요소였으며, 단어 벡터의 선형 연산을 통한 의미적 유추 가능성은 NLP 발전에 큰 영감을 주었다. 비록 문맥에 따른 다의어 처리 한계는 있으나, Word2Vec은 현대 딥러닝 기반 언어모델의 출발점으로서 역사적 의의가 크다. 1. 연구 배경과 문제의식자연어처리(NLP) 분야에서 단어를 어떻게 표현하느냐는 매우 중요한 문제다. 과거에는 단어를 원-핫 벡터(one-hot vector)로 단순하게 표현했지만, 이런 방식은 차원이..
RECURRENT NEURAL NETWORK REGULARIZATION - [2014 arXiv]
·
AI Research Paper Review/NLP
당시 RNN/LSTM은 잠재력은 컸지만, 과적합으로 인해 실제 적용에는 제약이 많았다. Dropout을 이용해 과적합 문제를 해결하려 했던 여러 시도가 있었고, 단순하게 Dropout을 배치해 과적합 문제를 해결했지만, RNN/LSTM의 장점을 묻히게 되었다. 본 논문은 과적합은 RNN과 LSTM의 고질적 문제라는 인식을 뒤집었으며, 정규화가 가능하다면 RNN도 충분히 스케일업할 수 있다는 확신을 심어주었다. 이는 곧 Seq2Seq 모델이나 Neural Machine Translation 연구의 발전을 촉진했다. 1. 연구 배경순환신경망(Recurrent Neural Networks, RNNs)은 시퀀스 데이터를 처리하는 데 강력한 도구로 자리잡았다. 대표적으로 언어 모델링(Mikolov, 2012..
Finding Structure in Time (RNN) (Jeffrey L. Elman) - [1990 Cognitive Science]
·
AI Research Paper Review/NLP
본 논문에서는 시간적 구조를 학습할 수 있는 단순 순환 신경망(Simple Recurrent Network, SRN) 을 소개한다. 기존의 연결주의 연구는 주로 정적인 입력 패턴을 다루었지만, 본 연구는 시간이라는 차원을 “명시적 입력”이 아닌 내부 상태(hidden state)의 변화를 통해 암묵적으로 표현하는 접근을 제안하였다. 이를 통해 단순히 입력을 버퍼처럼 나열하는 방식의 한계를 극복하고, 시퀀스 예측 과정에서 네트워크가 기억(memory)과 처리(processing) 를 동시에 수행하도록 만들었다. 이 아키텍처는 “다음 입력 예측(next-step prediction)” 과제를 통해 자연스럽게 단어 경계, 어휘 범주(명사/동사 등), 의미적 유사성을 추론할 수 있음을 보였으며, 이는 언어 습득..
Long Short-Term Memory (LSTM) (S. Hochreiter et al.) - [1997 MIT Press]
·
AI Research Paper Review/NLP
본 논문은 LSTM을 소개한 논문이다. 기존의 RNN이 장기 의존성에 취약하다는 부분을 메모리 셀과 게이트의 조합인 LSTM으로 해결한 논문이다. Transformer의 등장 이전까지 순환 신경망의 표준 격이었다. 1. IntroductionRecurrent Neural Networks(RNN, 1986)은 이론적으로 과거 입력 정보를 저장하고 활용할 수 있기 때문에, 음성 인식, 언어 처리, 제어, 음악 생성 등 다양한 순차적 문제에 적용할 수 있다. 그러나 실제 학습에서는 시간 지연이 길어질수록 성능이 급격히 저하되는 문제가 있었다.Recurrent Neural Networks(RNN, 1986)은 이론적으로 과거 입력 정보를 저장하고 활용할 수 있기 때문에, 음성 인식, 언어 처리, 제어, 음..