XLNet: Generalized Autoregressive Pretraining for Language Understanding (XLNet) (Zhilin Yang et al.) - [2019 NIPS]

·
AI Research Paper Review/Post-Transformer
본 논문에서 제안된 XLNet은 기존 BERT가 가진 한계(Pretrain–Finetune discrepancy, Independence Assumption Problem)를 극복하기 위해 제안된 일반화된 Autoregressive 사전학습 기법을 적용한 모델이다. 핵심 아이디어는 Permutation Language Modeling으로, 문장의 토큰 순서는 유지하되 확률 분해 순서를 무작위로 섞어 학습함으로써, AR 구조임에도 양방향 문맥을 학습할 수 있도록 한다. 이를 위해 XLNet은 two-stream self-attention을 도입하여 content stream은 문맥 표현을, query stream은 예측 전용 표현을 담당하게 함으로써 자기 자신을 직접 보지 않고도 예측 가능하게 설계하였다...