ALBERT: A Lite BERT for Self-supervised Learning of Language Representation (ALBERT) (Zhenzhong Lan et al.) - [2020 ICLR]
·
AI Research Paper Review/Post-Transformer
본 논문에서 제안한 ALBERT는 BERT의 한계를 극복하기 위해 제안된 경량화 언어모델로, 핵심은 파라미터 효율성과 문맥 이해력 개선에 있다. 기존 BERT는 임베딩 차원과 은닉 차원이 강하게 묶여 파라미터 수가 폭발적으로 증가했는데, ALBERT는 Factorized Embedding Parameterization를 통해 어휘 임베딩 차원과 은닉 차원을 분리하여 파라미터를 크게 줄였다. 또한 Cross-layer Parameter Sharing를 도입해 모델 깊이가 늘어나도 파라미터 수가 증가하지 않도록 했으며, BERT의 NSP 대신 SOP를 설계해 문장 간 일관성(coherence)을 학습하게 했다. 이 결과, ALBERT는 BERT-large보다 훨씬 적은 파라미터로도 GLUE, SQuAD, R..