XLNet: Generalized Autoregressive Pretraining for Language Understanding (XLNet) (Zhilin Yang et al.) - [2019 NIPS]
·
AI Research Paper Review/Post-Transformer
본 논문에서 제안된 XLNet은 기존 BERT가 가진 한계(Pretrain–Finetune discrepancy, Independence Assumption Problem)를 극복하기 위해 제안된 일반화된 Autoregressive 사전학습 기법을 적용한 모델이다. 핵심 아이디어는 Permutation Language Modeling으로, 문장의 토큰 순서는 유지하되 확률 분해 순서를 무작위로 섞어 학습함으로써, AR 구조임에도 양방향 문맥을 학습할 수 있도록 한다. 이를 위해 XLNet은 two-stream self-attention을 도입하여 content stream은 문맥 표현을, query stream은 예측 전용 표현을 담당하게 함으로써 자기 자신을 직접 보지 않고도 예측 가능하게 설계하였다...
ALBERT: A Lite BERT for Self-supervised Learning of Language Representation (ALBERT) (Zhenzhong Lan et al.) - [2020 ICLR]
·
AI Research Paper Review/Post-Transformer
본 논문에서 제안한 ALBERT는 BERT의 한계를 극복하기 위해 제안된 경량화 언어모델로, 핵심은 파라미터 효율성과 문맥 이해력 개선에 있다. 기존 BERT는 임베딩 차원과 은닉 차원이 강하게 묶여 파라미터 수가 폭발적으로 증가했는데, ALBERT는 Factorized Embedding Parameterization를 통해 어휘 임베딩 차원과 은닉 차원을 분리하여 파라미터를 크게 줄였다. 또한 Cross-layer Parameter Sharing를 도입해 모델 깊이가 늘어나도 파라미터 수가 증가하지 않도록 했으며, BERT의 NSP 대신 SOP를 설계해 문장 간 일관성(coherence)을 학습하게 했다. 이 결과, ALBERT는 BERT-large보다 훨씬 적은 파라미터로도 GLUE, SQuAD, R..
RoBERTa: A Robustly Optimized BERT Pretraining Approach (RoBERTa) (Yinhan Liu et al.) - [2019 arXiv]
·
AI Research Paper Review/Post-Transformer
본 논문은 BERT가 사실상 충분히 학습되지 않은 상태에서 보고되었음을 지적하고, 학습 절차를 체계적으로 최적화해 RoBERTa라는 개선된 사전학습 방식을 제안한다. 핵심은 더 많은 데이터와 더 긴 학습, 대규모 배치, NSP 제거, 동적 마스킹 적용 등 단순한 학습 전략 변경이다. 아키텍처나 목표 함수를 바꾸지 않고도 이러한 개선만으로 GLUE, SQuAD, RACE 등 주요 벤치마크에서 당시 SOTA를 달성했다. 이를 통해 성능 향상이 새로운 Objective나 구조 때문이 아니라 데이터 크기·학습 시간·마스킹 전략 같은 세부 설정에서 비롯됨을 입증했다. 따라서 RoBERTa는 향후 언어모델 연구에서 학습 전략의 중요성을 재조명한 대표적 사례로 자리매김한다. 1. IntroductionNLP에서 P..
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT) (Jacob Devlin et al.) - [2019 NAACL]
·
AI Research Paper Review/Post-Transformer
BERT는 기존 언어모델이 가지던 Unidirectionality 한계를 극복하기 위해 제안된 Bidirectional Pre-trained LM으로, Transformer encoder 구조 위에 Masked Language Model(MLM)과 Next Sentence Prediction(NSP) 두 가지 objective를 결합해 학습된다. 이를 통해 Token-level과 Sentence-pair의 문맥을 모두 반영할 수 있으며, [CLS], [SEP] 등의 특수 토큰을 활용한 통합 입력 표현으로 다양한 Downstream Task에 동일한 구조를 적용할 수 있다. 사전학습된 BERT는 Fine-tuning만으로 GLUE, SQuAD, SWAG 등 11개 주요 NLP 벤치마크에서 기존 SOTA를 ..
Scaling Laws for Neural Language Models (Scaling Laws) (Jared Kaplan et al.)
·
AI Research Paper Review/Post-Transformer
본 논문은 대규모 언어 모델의 성능이 모델 크기(N), 학습 데이터 양(D), 학습 스텝 수(S), 총 연산량(C)에 대해 power-law 형태로 예측 가능하게 변화함을 정량적으로 정의한다. 핵심은, 기존처럼 구조(depth, width 등)에 집착하기보다, 단순히 모델 규모와 학습량을 키우는 것이 성능 향상에 훨씬 더 결정적이라는 점이다. 이를 통해 논문은 “큰 모델을 짧게 학습하는 것이, 작은 모델을 오래 학습하는 것보다 Compute 효율이 더 좋다”는 새로운 훈련 전략을 제시하고, scaling law를 통해 이 최적점을 수식으로 예측하는 방법도 제공한다. 특히, overfitting 발생 경계조차도 모델 크기와 데이터 양의 함수로 정량화되며, 같은 loss를 얻기 위한 compute trade..