ALBERT: A Lite BERT for Self-supervised Learning of Language Representation (ALBERT) (Zhenzhong Lan et al.) - [2020 ICLR]
·
AI Research Paper Review/Post-Transformer
본 논문에서 제안한 ALBERT는 BERT의 한계를 극복하기 위해 제안된 경량화 언어모델로, 핵심은 파라미터 효율성과 문맥 이해력 개선에 있다. 기존 BERT는 임베딩 차원과 은닉 차원이 강하게 묶여 파라미터 수가 폭발적으로 증가했는데, ALBERT는 Factorized Embedding Parameterization를 통해 어휘 임베딩 차원과 은닉 차원을 분리하여 파라미터를 크게 줄였다. 또한 Cross-layer Parameter Sharing를 도입해 모델 깊이가 늘어나도 파라미터 수가 증가하지 않도록 했으며, BERT의 NSP 대신 SOP를 설계해 문장 간 일관성(coherence)을 학습하게 했다. 이 결과, ALBERT는 BERT-large보다 훨씬 적은 파라미터로도 GLUE, SQuAD, R..
RoBERTa: A Robustly Optimized BERT Pretraining Approach (RoBERTa) (Yinhan Liu et al.) - [2019 arXiv]
·
AI Research Paper Review/Post-Transformer
본 논문은 BERT가 사실상 충분히 학습되지 않은 상태에서 보고되었음을 지적하고, 학습 절차를 체계적으로 최적화해 RoBERTa라는 개선된 사전학습 방식을 제안한다. 핵심은 더 많은 데이터와 더 긴 학습, 대규모 배치, NSP 제거, 동적 마스킹 적용 등 단순한 학습 전략 변경이다. 아키텍처나 목표 함수를 바꾸지 않고도 이러한 개선만으로 GLUE, SQuAD, RACE 등 주요 벤치마크에서 당시 SOTA를 달성했다. 이를 통해 성능 향상이 새로운 Objective나 구조 때문이 아니라 데이터 크기·학습 시간·마스킹 전략 같은 세부 설정에서 비롯됨을 입증했다. 따라서 RoBERTa는 향후 언어모델 연구에서 학습 전략의 중요성을 재조명한 대표적 사례로 자리매김한다. 1. IntroductionNLP에서 P..
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT) (Jacob Devlin et al.) - [2019 NAACL]
·
AI Research Paper Review/Post-Transformer
BERT는 기존 언어모델이 가지던 Unidirectionality 한계를 극복하기 위해 제안된 Bidirectional Pre-trained LM으로, Transformer encoder 구조 위에 Masked Language Model(MLM)과 Next Sentence Prediction(NSP) 두 가지 objective를 결합해 학습된다. 이를 통해 Token-level과 Sentence-pair의 문맥을 모두 반영할 수 있으며, [CLS], [SEP] 등의 특수 토큰을 활용한 통합 입력 표현으로 다양한 Downstream Task에 동일한 구조를 적용할 수 있다. 사전학습된 BERT는 Fine-tuning만으로 GLUE, SQuAD, SWAG 등 11개 주요 NLP 벤치마크에서 기존 SOTA를 ..
Scaling Laws for Neural Language Models (Scaling Laws) (Jared Kaplan et al.)
·
AI Research Paper Review/Post-Transformer
본 논문은 대규모 언어 모델의 성능이 모델 크기(N), 학습 데이터 양(D), 학습 스텝 수(S), 총 연산량(C)에 대해 power-law 형태로 예측 가능하게 변화함을 정량적으로 정의한다. 핵심은, 기존처럼 구조(depth, width 등)에 집착하기보다, 단순히 모델 규모와 학습량을 키우는 것이 성능 향상에 훨씬 더 결정적이라는 점이다. 이를 통해 논문은 “큰 모델을 짧게 학습하는 것이, 작은 모델을 오래 학습하는 것보다 Compute 효율이 더 좋다”는 새로운 훈련 전략을 제시하고, scaling law를 통해 이 최적점을 수식으로 예측하는 방법도 제공한다. 특히, overfitting 발생 경계조차도 모델 크기와 데이터 양의 함수로 정량화되며, 같은 loss를 얻기 위한 compute trade..
Retrieval-Augmented Generation for Large Language Models: A Survey (Yunfan Gao et al.)
·
AI Research Paper Review/Post-Transformer
본 논문은 대규모 언어모델(LLMs)의 Hallucination, Outdated Knowledge, 비투명한 추론 문제를 해결하기 위한 RAG의 발전을 종합적으로 정리한 Survey다. RAG는 외부 지식베이스에서 관련 정보를 검색해 LLM의 응답에 통합함으로써 사실성·최신성·신뢰성을 강화하며, 발전 과정은 Naive RAG(단순 Retrieve-Read) → Advanced RAG(인덱싱·쿼리·포스트리랭크 최적화) → Modular RAG(메모리·라우팅·멀티쿼리 등 모듈화된 구조)로 요약된다. 논문은 Retrieval, Generation, Augmentation의 세 축에서 핵심 기술을 분석하고, 26개 태스크·50여 개 데이터셋·다양한 벤치마크를 통해 평가 체계를 체계화하였다. 또한 RAG와 파인..