BERT는 기존 언어모델이 가지던 Unidirectionality 한계를 극복하기 위해 제안된 Bidirectional Pre-trained LM으로, Transformer encoder 구조 위에 Masked Language Model(MLM)과 Next Sentence Prediction(NSP) 두 가지 objective를 결합해 학습된다. 이를 통해 Token-level과 Sentence-pair의 문맥을 모두 반영할 수 있으며, [CLS], [SEP] 등의 특수 토큰을 활용한 통합 입력 표현으로 다양한 Downstream Task에 동일한 구조를 적용할 수 있다. 사전학습된 BERT는 Fine-tuning만으로 GLUE, SQuAD, SWAG 등 11개 주요 NLP 벤치마크에서 기존 SOTA를 큰 폭으로 초월하며, 단일 모델로 QA, NLI, NER, 문장 분류 등 다양한 과제를 해결할 수 있음을 보여주었다. Ablation 연구 결과 NSP와 Bidirectional MLM이 성능 향상에 중요한 역할을 했으며, 특히 QA·NLI 같은 문장 관계 기반 태스크에서 큰 효과를 보였다. 결국 BERT는 범용적이고 강력한 언어 표현 모델로서, NLP 패러다임을 Feature-based Approach에서 fFne-tuning Approach 중심으로 전환시키는 결정적 전환점이 되었다.
1. Introduction
NLP에서 Pre-trained Language Model의 효과는 여러 연구들(Dai & Le, Peters et al., Radford et al., Howard & Ruder 등)에 의해 증명되어왔다. 이러한 사전학습 방식은 크게 두 가지 접근으로 나눌 수 있다:
- Feature-based Approach: 예를 들어 ELMo는 Bidirectional LSTM 기반 언어모델을 학습한 뒤, task-specific 모델에 해당 표현을 feature로 추가하는 방식이다.
- Fine-tuning Approach: GPT와 같은 모델은 Transformer 기반 언어모델을 학습한 뒤, downstream task에 맞게 전체 파라미터를 Fine-tuning한다.
하지만 기존의 언어모델들은 단방향(unidirectional) 구조라는 근본적 한계를 갖는다. 예컨대 GPT는 left-to-right 방식이어서, 특정 토큰은 자기 앞에 있는 단어들만 볼 수 있다. 이는 문맥 이해, 특히 질문응답(QA) 같은 Token-Level Task에서 성능 저하로 이어질 수 있다.
이 한계를 극복하기 위해 저자들은 BERT (Bidirectional Encoder Representations from Transformers)를 제안했다. 핵심 아이디어는 Masked Language Model(MLM)과 Next Sentence Prediction(NSP)이라는 새로운 pre-training objective를 통해 Deep Bidirectionality을 모델에 부여하는 것이다.
논문의 주요 기여점은 다음과 같다:
- Bidirectional pre-training의 중요성을 보여주고, 이를 가능하게 하는 MLM을 제안
- Task-specific 아키텍처 설계의 필요성을 줄이고, 단일 모델로 여러 task에서 state-of-the-art를 달성
- GLUE, SQuAD 등 11개 주요 NLP 벤치마크에서 새로운 최고 성능을 기록
2. Related Work
(1) Unsupervised Feature-based Approach
- 초기에는 단어 임베딩(word embeddings) 연구(Mikolov Word2Vec, Pennington GloVe)가 활발히 이루어짐.
- ELMo는 LSTM 기반 LM을 Bidirection으로 학습해 문맥적 단어 표현을 얻음. 그러나 이는 단순한 left-to-right과 right-to-left의 결과물 Concatenation일 뿐, Deep Layer에서 좌/우 문맥을 결합하지 못함.
(2) Unsupervised Fine-tuning Approach
- OpenAI GPT는 Transformer 기반 언어모델을 대규모 Corpus에서 학습하고 fine-tuning하는 방식으로 성능 향상
- 하지만 GPT는 왼쪽 문맥만을 활용하는 제한이 있어, 문장 관계 추론이나 QA에 불리하다.
(3) Supervised Transfer Learning
- 자연어 추론(NLI)이나 기계번역 등 대규모 Labeled Data를 활용한 전이학습도 연구됨.
- Vision Task에서 ImageNet 사전학습 모델을 fine-tuning하는 것과 유사한 접근
3. BERT Architecture
BERT는 크게 사전학습(pre-training)과 미세조정(fine-tuning) 두 단계로 나뉜다.
(1) Architecture
- Transformer Encoder 구조 기반
- 두 가지 크기 제안:
- BERT_BASE: L=12, H=768, A=12, 약 110M 파라미터 (GPT와 크기 동일)
- BERT_LARGE: L=24, H=1024, A=16, 약 340M 파라미터
- GPT와 달리 BERT는 Bidirectional self-attention을 사용
(2) Input Representation
- WordPiece 토크나이저(30k vocab)
- 특수 토큰: [CLS] (분류용), [SEP] (문장 구분용)
- 임베딩 구성: Token embedding + Segment embedding(A문장인지, B문장인지) + Position embedding(Sequence에서의 Token Position)
4. Pre-training
BERT는 두 가지 새로운 학습 목표를 사용한다.
(1) Masked Language Model (MLM)
- 입력 문장에서 15% 단어를 랜덤하게 마스킹
- 마스킹된 단어를 문맥을 통해 예측
- 단순 denoising autoencoder와 달리 전체 문장을 재구성하지 않고, mask된 단어만 예측
- 마스킹 전략: [MASK] 80%, 랜덤 단어 10%, 원래 단어 유지 10%
Standard Conditional Language Model은 left-to-right 또는 right-to-left만 학습할 수 있기에, 본 연구에서는 Bidirectionality를 부여하기 위해 단순히 target word를 예측하는 것으로는 Model이 Bidirectionality를 학습하기에 부족하다는 판단을 하였다. 이를 해결하고자, Masked 토큰을 확률적으로 적용하는 방법을 채택한 것이고 이는 BERT가 Bidirectionality를 학습할 수 있게된 Essential 포인트라고 볼 수 있다.
(2) Next Sentence Prediction (NSP)
- 두 문장 A, B가 있을 때, B가 실제 다음 문장인지 여부를 예측
- 50%는 실제 연속 문장(IsNext), 50%는 랜덤 문장(NotNext)
- QA, NLI와 같은 sentence-pair task 성능 향상에 기여
BERT에서 MLM만큼 중요한 element는 NSP이다. BERT는 Downstream Task에서 좋은 성능들을 이뤄냈는데, 이는 NSP의 많은 기여가 있었다고 할 수 있다. 많은 NLP task에서는 Sequence 간의 관계를 추론하는 것(NLI)이 굉장히 중요한 요소인데, 다음 문장을 예측하는 NSP는 이러한 요소를 강화하였고 이 결과로 많은 Downstream Task에서 SOTA를 달성할 수 있었다.
(3) Data for Training
- BooksCorpus (800M words) + English Wikipedia (2.5B words)
- 문서 단위 학습을 통해 문맥적 연속성을 보존
5. Fine-tuning
- BERT는 다양한 downstream task에 동일한 아키텍처를 적용 가능
- [CLS] 벡터 → 분류 태스크, token-level 벡터 Ti → 시퀀스 태스크에 사용
- GLUE, SQuAD, NER, SWAG 등 다양한 벤치마크에 적용됨.
6. Experiments
(1) GLUE Benchmark
- 8개 NLU task 포함
- BERT_LARGE: 평균 82.1 점 → 기존 SOTA(OpenAI GPT 75.1) 대비 큰 폭 개선
- MNLI: 86.7% 정확도 (GPT 대비 +4.6%)
(2) SQuAD 1.1
- BERT_LARGE (Ensemble + TriviaQA): F1 = 93.2 → 인간 수준(91.2)을 초월
- 단일 모델(single model) 성능도 기존 앙상블 모델을 초월
(3) SQuAD 2.0
- 답이 없는 질문 포함
- BERT: F1 = 83.1 → 기존 최고 대비 +5.1
(4) SWAG (상식 추론)
- BERT_LARGE: 정확도 86.3 → GPT보다 8.3%p 높음
7. Ablation Study
- NSP 제거: QNLI, MNLI, SQuAD에서 성능 저하 d
- LTR LM vs MLM 비교: MLM 기반 모델이 모든 태스크에서 우월
- 모델 크기 효과: 모델이 커질수록 GLUE, SQuAD 성능이 지속적으로 향상 (BERT_LARGE가 BERT_BASE보다 모든 태스크에서 우월)
- Feature-based BERT (NER): Fine-tuning보다 성능은 약간 낮지만 여전히 강력
8. Conclusion
- BERT는 처음으로 깊은 Bidirectional Transformer를 사전학습에 적용하여, 단일 모델로 다양한 NLP 태스크에서 SOTA를 달성
- Unidirectional LM의 한계를 극복하고, 문장-쌍 관계 학습(NSP)까지 포함하여 범용적 언어 이해를 가능케 함.
- Fine-tuning과 Feature-based 모두 활용 가능하며, 대규모 사전학습이 저자원 태스크에도 큰 도움을 줌을 입증