Long Short-Term Memory (LSTM) (S. Hochreiter et al.) - [1997 MIT Press]

본 논문은 LSTM을 소개한 논문이다. 기존의 RNN이 장기 의존성에 취약하다는 부분을 메모리 셀과 게이트의 조합인 LSTM으로 해결한 논문이다. Transformer의 등장 이전까지 순환 신경망의 표준 격이었다.

1. Introduction

Recurrent Neural Networks(RNN, 1986)은 이론적으로 과거 입력 정보를 저장하고 활용할 수 있기 때문에, 음성 인식, 언어 처리, 제어, 음악 생성 등 다양한 순차적 문제에 적용할 수 있다. 그러나 실제 학습에서는 시간 지연이 길어질수록 성능이 급격히 저하되는 문제가 있었다.

기존 학습 방식인 BPTT (Backpropagation Through Time)와 RTRL (Real-Time Recurrent Learning)은 두 가지 치명적 문제를 가진다.

기울기 폭발 (Exploding Gradient)
- 오차가 역전파되며 지수적으로 증가.
- 가중치가 불안정해지고 발산하거나 진동한다.
기울기 소실 (Vanishing Gradient)
- 오차가 역전파되며 지수적으로 0에 수렴.
- 긴 시간 지연을 학습하지 못함.

Hochreiter(1991)의 분석에 따르면, 로지스틱 시그모이드 같은 비선형 함수와 일반적인 가중치 초기화 범위에서는 오차가 필연적으로 Vanishing하는 경향을 가진다. 따라서 긴 의존성을 학습하는 것은 사실상 불가능했다.

2. Previous Work

Time-Delay Neural Network (Lang, Waibel, Hinton, 1990): 짧은 시퀀스 지연은 처리 가능하나 수백 스텝 이상은 무력하다.
Time Constants (Mozer, 1992): 유닛의 변화 속도를 늦춰 장기 저장을 시도했지만, 외부 튜닝이 필요.
Ring’s Higher-Order Units (1993): 지연을 커버하기 위해 유닛을 계속 추가해야 해서 비효율적.
Bengio et al. (1994): 다양한 최적화 기법(annealing, EM 등)을 시도했지만 실질적 개선 없음.
Kalman Filter 기반 접근 (Puskorius & Feldkamp, 1994): 과거 효과가 지수적으로 감쇠되어 역시 장기 지연 학습 불가.
Chunker/Hierarchical RNNs (Schmidhuber, 1992): 특정 규칙적 패턴에는 유효했지만, 잡음 많은 입력에서는 성능이 급격히 저하됨.

즉, 모든 기존 접근법은 장기 의존성 문제를 해결하지 못했다.

3. LSTM 핵심 아이디어 (Constant Error Flow)

3.1 Constant Error Carousel (CEC)

자기 자신으로 가중치 1을 가진 자기 연결 선형 유닛을 도입.
이 구조에서는 역전파된 오차가 시간이 지나도 크기가 변하지 않고 항상 일정하게 유지된다.
이를 통해 기울기 소실과 폭발을 동시에 막는다.

3.2 문제: 입력/출력 충돌

단순히 CEC만 두면 문제가 발생한다.

입력 가중치 하나가 “정보 저장”과 “불필요한 입력 무시”라는 상충된 요구를 동시에 받음.
출력 가중치 하나가 “정보 읽기”와 “불필요한 방해 억제”를 동시에 수행해야 함.
이로 인해 학습이 매우 어려워진다.

3.3 해결책: 게이트 구조

입력 게이트 (Input Gate): 언제 정보를 저장할지 제어 → 불필요한 입력 차단.
출력 게이트 (Output Gate): 언제 정보를 읽을지 제어 → 불필요한 간섭 방지.
이로써 메모리 셀은 안정적이고 선택적인 저장·출력 기능을 갖춘다.

즉, 메모리 셀 + 게이트 = LSTM의 기본 단위이다.

4. LSTM 아키텍처 (The Concept)

4.1 메모리 셀 구조

내부에 CEC(선형 자기연결) 포함.
입력 게이트가 켜지면 새로운 정보가 들어와 상태(state)에 누적된다.
출력 게이트가 켜지면 상태가 외부로 전달된다.

4.2 메모리 셀 블록

여러 셀이 동일한 게이트를 공유하는 구조.
분산 표현을 효율적으로 다룰 수 있다.

4.3 학습 방식

Truncated Backpropagation을 사용.
오차는 메모리 셀 내부에서는 보존되지만, 외부로 새어 나가려는 경우 절단된다.
따라서 효율성과 안정성을 동시에 확보한다.

4.4 계산 복잡도

LSTM의 학습 복잡도는 O(W) (가중치 개수에 선형).
이는 BPTT와 동일하지만, RTRL(O(W²))보다 훨씬 효율적이다.

입력 (xₜ, hₜ₋₁)
- 현재 시점 입력 xt와 이전 시점의 은닉 상태 ht−1가 들어간다.
- 이 두 정보는 게이트(Forget, Input, Output)를 계산하는 데 모두 사용된다.
Forget Gate (σ, × 연산 블록, 분홍색 부분)
- Sigmoid(σ)가 출력한 값(0~1)을 곱해 이전 셀 상태 Ct−1에서 어느 부분을 잊을지를 결정한다.
- 0에 가까우면 “완전히 잊기”, 1에 가까우면 “그대로 유지”.
Input Gate (σ, tanh, × 연산, 초록색 부분)
- 시그모이드(σ): 어떤 값을 새로 저장할지 결정.
- tanh: 후보값 C~t\tilde{C}_tC~t 생성.
- 두 결과를 곱해 “얼마나 새로운 정보를 쓸지” 결정한다.
Cell State Update (＋ 연산)
- 이전 셀 상태 Ct−1를 Forget Gate가 걸러내고,
- Input Gate가 결정한 새로운 정보를 더해 새로운 셀 상태인 Ct를 만든다.
- 이것이 LSTM의 CEC(Constant Error Carousel) 부분으로, 장기 기억을 저장하는 핵심이다.
Output Gate (σ, tanh, × 연산, 파란색 부분)
- 셀 상태 Ct를 tanh로 스케일링 후,
- 시그모이드 게이트가 출력할 부분을 조절한다.
- 최종 은닉 상태 ht가 된다.

5. Experiments

저자들은 다양한 인공 과제를 통해 LSTM이 기존 방법을 압도함을 보였다.

5.1 Embedded Reber Grammar

고전적 벤치마크 문제.
LSTM은 항상 성공하며 RTRL, RCC, Elman net보다 훨씬 빠르게 수렴.
출력 게이트의 필요성이 잘 드러난 실험.

5.2 긴 지연, 잡음 포함

최소 1000 스텝 이상의 지연과 수백 개의 방해 기호가 존재.
BPTT, RTRL은 10스텝만 되어도 실패.
LSTM은 1000 스텝 지연 문제도 성공적으로 해결.

5.3 Two-Sequence Problem

Bengio 등이 제안한 문제.
단순 버전은 weight guessing으로도 풀리지만, 잡음과 연속값 타깃을 추가해 난이도를 높임.
LSTM은 조건부 기댓값을 학습하며, 다른 방법은 실패.

5.4 Adding Problem

시퀀스 중 두 실수 값을 기억해 마지막에 더해야 함.
지연이 수백 스텝이어도 성공.
LSTM이 연속값 기억을 안정적으로 수행함을 보임.

5.5 Multiplication Problem

Adding 대신 곱셈을 요구.
LSTM은 곱셈 같은 비적분적 연산도 학습 가능.

5.6 Temporal Order

두 기호(X,Y)의 순서에 따라 클래스가 달라짐.
예: (X,Y) vs (Y,X).
LSTM은 수십~수백 스텝 지연에서도 정확히 순서 구분을 학습.

6. Discussion

6.1 한계

XOR처럼 비분해적(non-decomposable) 문제, 즉 부분적 정보만으로는 답을 알 수 없고 여러 입력을 동시에 조합해야만 정답이 나오는 문제에는 truncated 버전이 약함.
메모리 셀은 유닛 수가 늘어나 가중치가 많아질 수 있음.
정확한 카운팅(예: 99 vs 100 스텝)은 어려움.

6.2 장점

장기 의존성 해결: 수천 스텝 지연도 처리 가능.
잡음·분산·연속값 처리 가능.
파라미터 튜닝 불필요: 학습률, 바이어스 등에 민감하지 않음.
효율성: O(W) 복잡도로 실용적.

7. Conclusion

이 논문은 RNN의 치명적 한계였던 기울기 소실 문제를 해결하기 위해 LSTM 구조를 제안하였다.

메모리 셀과 게이트를 통한 선택적 정보 저장 및 출력 메커니즘.
수천 스텝 이상의 장기 지연 문제 해결.
기존 알고리즘이 전혀 풀지 못한 인공 과제를 해결.

이 연구는 이후 음성 인식, 언어 모델, 기계 번역, 음악 생성, 시계열 예측 등 다양한 분야에 LSTM이 널리 적용되는 계기가 되었고, 현대 딥러닝에서 Transformer 이전까지 순환신경망의 사실상 표준이 되었다.

'AI Research Paper Review > Pre-Transformer' 카테고리의 다른 글

Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau Attention) (Bahdanau et al.) - [2015 ICLR] (2)	2025.08.26
Sequence to Sequence Learning with Neural Networks (Seq2Seq) (Ilya Sutskever, Oriol Vinyals, Quoc V. Le) - [2014 NIPS] (0)	2025.08.23
Distributed Representations of Words and Phrases and their Compositionality (Word2Vec) (Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean) - [2013 ANIPS] (3)	2025.08.23
RECURRENT NEURAL NETWORK REGULARIZATION (Zaremba, Sutskever, Vinyals) - [2014 arXiv] (0)	2025.08.23
Finding Structure in Time (RNN) (Jeffrey L. Elman) - [1990 Cognitive Science] (0)	2025.08.23

1. Introduction

2. Previous Work

3. LSTM 핵심 아이디어 (Constant Error Flow)

3.1 Constant Error Carousel (CEC)

3.2 문제: 입력/출력 충돌

3.3 해결책: 게이트 구조

4. LSTM 아키텍처 (The Concept)

4.1 메모리 셀 구조

4.2 메모리 셀 블록

4.3 학습 방식

4.4 계산 복잡도

5. Experiments

5.1 Embedded Reber Grammar

5.2 긴 지연, 잡음 포함

5.3 Two-Sequence Problem

5.4 Adding Problem

5.5 Multiplication Problem

5.6 Temporal Order

6. Discussion

6.1 한계

6.2 장점

7. Conclusion

'AI Research Paper Review > Pre-Transformer' 카테고리의 다른 글

티스토리툴바