RoBERTa: A Robustly Optimized BERT Pretraining Approach (RoBERTa) (Yinhan Liu et al.) - [2019 arXiv]

본 논문은 BERT가 사실상 충분히 학습되지 않은 상태에서 보고되었음을 지적하고, 학습 절차를 체계적으로 최적화해 RoBERTa라는 개선된 사전학습 방식을 제안한다. 핵심은 더 많은 데이터와 더 긴 학습, 대규모 배치, NSP 제거, 동적 마스킹 적용 등 단순한 학습 전략 변경이다. 아키텍처나 목표 함수를 바꾸지 않고도 이러한 개선만으로 GLUE, SQuAD, RACE 등 주요 벤치마크에서 당시 SOTA를 달성했다. 이를 통해 성능 향상이 새로운 Objective나 구조 때문이 아니라 데이터 크기·학습 시간·마스킹 전략 같은 세부 설정에서 비롯됨을 입증했다. 따라서 RoBERTa는 향후 언어모델 연구에서 학습 전략의 중요성을 재조명한 대표적 사례로 자리매김한다.

1. Introduction

NLP에서 Pre-trained Model은 ELMo, GPT, BERT 등으로 이어지며 큰 성과를 거두었다. 그러나 각 모델의 성능 차이가 어디에서 비롯되는지, 즉 아키텍처 변화 때문인지, 데이터 크기 때문인지, 혹은 학습 설정 때문인지는 명확히 규명되지 않았다.

특히 BERT는 뛰어난 성능에도 불구하고 충분히 학습되지 않았다는 의문이 제기되었다. 본 논문은 이를 실험적으로 재검증하고, BERT 학습 절차를 개선해 RoBERTa라 불리는 최적화된 사전학습 방식을 제안한다.

주요 개선 사항은 다음 네 가지다:

더 많은 데이터, 더 큰 배치, 더 긴 학습
Next Sentence Prediction(NSP) 제거
Long-Sequence 학습
Dynamic Masking 적용

이를 통해 RoBERTa는 GLUE, SQuAD, RACE 벤치마크에서 모두 최고 성능을 달성하였다.

2. Background of BERT

BERT는 Transformer Encoder 구조를 사용하며, 두 가지 사전학습 목표를 가진다:

Masked Language Modeling (MLM): 문장 내 일부 토큰을 [MASK]로 치환하고 원래 단어를 맞추는 방식
Next Sentence Prediction (NSP): 두 문장이 원래 순서대로 이어지는지 여부를 이진 분류

BERT는 BookCorpus(16GB) + Wikipedia(16GB) 데이터로 약 10억 단어를 학습했으며, Adam Optimizer, LR Warmup, Dropout, GELU activation 등을 사용했다.

3. Experimental Setup

저자들은 FAIRSEQ 프레임워크 위에 BERT를 재구현하였다. 주요 차이는 다음과 같다:

학습 시 전부 full-length sequence(512 tokens) 만 사용 (BERT는 초기 90%는 짧은 시퀀스로 학습)
Mixed-precision 학습, 8×V100 GPU 사용
데이터셋은 총 160GB 이상을 확보:
- BookCorpus + Wikipedia (16GB)
- CC-News (76GB)
- OpenWebText (38GB)
- Stories (31GB)

평가는 GLUE, SQuAD, RACE 세 가지 벤치마크에서 수행했다.

4. Training Procedure Analysis

저자들은 BERT 성능에 영향을 주는 디자인 선택들을 하나씩 분석했다.

4.1 Static vs Dynamic Masking

BERT: 데이터 준비 시 한 번만 마스크 생성 → 정적 마스킹
RoBERTa: 학습 시마다 새로운 마스크 생성 → 동적 마스킹
결과: Dynamic Masking이 약간 더 좋은 성능과 효율성을 보임

4.2 NSP의 필요성

BERT는 NSP가 필수라 주장했으나(Sequence 간의 관계 추론 능력 향상을 위해), 실험 결과 NSP를 제거해도 오히려 성능이 동등하거나 개선됨 -> 따라서 RoBERTa에서는 NSP를 제거

4.3 대규모 배치 학습

BERT: batch size 256
RoBERTa: batch size 2K~8K 실험 → 큰 배치일수록 Perplexity와 Downstream 성능 개선

4.4 텍스트 인코딩

BERT: character-level BPE, vocab 30k
RoBERTa: byte-level BPE, vocab 50k
성능 차이는 크지 않지만, 범용성이 좋은 byte-level BPE 채택

5. Architecture

위 개선 사항들을 통합해 RoBERTa라는 새로운 학습 절차를 제안했다.

핵심 특징:

NSP 제거
Dynamic Masking
대규모 Batch Train
Byte-level BPE (50k)
더 많은 데이터 (160GB)
더 오래 학습 (최대 500k steps)

주요 결과:

같은 데이터(16GB)에서도 RoBERTa는 BERT보다 훨씬 우수
데이터 10배(160GB)로 늘리고 학습 스텝을 100k → 300k → 500k로 확장 시, 성능이 지속적으로 상승
최종적으로 RoBERTa는 XLNet Large보다 대부분의 Task에서 우수

6. Results

6.1 GLUE

RoBERTa는 GLUE 9개 과제 모두에서 SOTA 달성.
평균 점수: 88.5 (당시 최고)
특히 MNLI, QNLI, RTE, STS-B에서 큰 개선
중요한 점: BERT와 동일한 MLM 목표만 사용했음에도 아키텍처 변경 없이 성능 향상 → 데이터, 학습시간, 배치 크기 같은 세부 요소가 핵심 요인임을 입증

6.2 SQuAD

BERT/XLNet은 외부 QA 데이터로 증강했으나, RoBERTa는 SQuAD 데이터만 사용
SQuAD v1.1: XLNet과 동급
SQuAD v2.0: RoBERTa가 SOTA 달성 (EM 86.5, F1 89.4)

6.3 RACE

긴 지문과 고난이도 질문을 포함한 독해 데이터셋
결과: RoBERTa 83.2% 정확도 → XLNet(81.7%), BERT(72.0%) 모두 초월

7. Related Work

저자들은 RoBERTa를 GPT, XLNet, SpanBERT 등과 비교하며, 성능 향상이 단순히 새로운 objective 때문이 아니라 충분한 데이터와 학습 덕분일 수 있음을 강조한다.

8. Conclusion

BERT는 사실상 충분히 학습되지 않은 상태에서 보고된 것이며, 단순히 학습 전략을 개선하는 것만으로도 큰 성능 향상이 가능하다.
RoBERTa는 아키텍처를 바꾸지 않고도 GLUE, SQuAD, RACE에서 최고 성능을 달성했다.
따라서 언어모델 성능의 핵심 요인은 새로운 objective 설계보다는 데이터 크기, 학습 길이, 배치 크기, 마스킹 전략 등 세부적인 학습 설정임을 보여준다.

'AI Research Paper Review > Post-Transformer' 카테고리의 다른 글

XLNet: Generalized Autoregressive Pretraining for Language Understanding (XLNet) (Zhilin Yang et al.) - [2019 NIPS] (0)	2025.09.04
ALBERT: A Lite BERT for Self-supervised Learning of Language Representation (ALBERT) (Zhenzhong Lan et al.) - [2020 ICLR] (0)	2025.09.04
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT) (Jacob Devlin et al.) - [2019 NAACL] (1)	2025.09.01
Scaling Laws for Neural Language Models (Scaling Laws) (Jared Kaplan et al.) (0)	2025.08.31
Retrieval-Augmented Generation for Large Language Models: A Survey (Yunfan Gao et al.) (4)	2025.08.29

1. Introduction

2. Background of BERT

3. Experimental Setup

4. Training Procedure Analysis

4.1 Static vs Dynamic Masking

4.2 NSP의 필요성

4.3 대규모 배치 학습

4.4 텍스트 인코딩

5. Architecture

핵심 특징:

주요 결과:

6. Results

6.1 GLUE

6.2 SQuAD

6.3 RACE

7. Related Work

8. Conclusion

'AI Research Paper Review > Post-Transformer' 카테고리의 다른 글

티스토리툴바