본 논문은 GPT-2라는 15억 파라미터 규모의 초대형 LM을 제안하며, 지도학습 없이도(zero-shot) 다양한 NLP 과제를 수행할 수 있다는 것을 보였다. 연구팀은 Reddit 기반의 고품질 웹 크롤링 데이터셋 WebText(40GB, 8M 문서)를 구축해 모델을 학습시켰고, 그 결과 GPT-2는 요약·번역·질의응답·독해 등 여러 태스크에서 별도 파인튜닝 없이도 경쟁력 있는 성능을 냈다. 특히 언어모델링 벤치마크 8개 중 7개에서 새로운 SOTA 성능을 기록하며, 모델 크기 확장이 성능을 로그-선형적으로 끌어올린다는 사실을 입증했다. 또한 GPT-2는 일부 학습 데이터를 암기하긴 했으나 대부분은 새로운 문장을 창의적으로 생성(Drift)하며 Unsupervised Multitask Learner로 기능함을 보여주었다. 요컨대, 이 논문은 거대 LM이 범용 인공지능(general-purpose AI)에 다가가는 길을 열었음을 보여주는 전환점이 되었다.
1. 연구 배경
자연어처리(NLP) 분야는 오랫동안 Task별 데이터셋과 Supervised Learning에 의존해왔다. 예를 들어 기계번역, 질의응답, 요약, 독해 등의 문제는 모두 각각의 Labeled Dataset을 필요로 한다. 그러나 이런 접근법은 몇 가지 한계를 가진다.
- 일반화 부족: 특정 Task와 특정 데이터 분포에서 잘 작동하지만, 데이터 분포가 조금만 달라져도 성능이 급격히 저하된다.
- 라벨링 비용: 대규모의 Task별 라벨링 데이터셋을 구축하는 데 엄청난 비용이 소요된다.
- 확장성의 한계: 새로운 Task가 등장할 때마다 데이터셋을 새로 만들어야 하며, 이는 NLP의 범용화를 가로막는다. → GPT-1의 Limitation
저자들은 이러한 문제의 근본 원인을 “Single-Task 학습”에 있다고 본다. 해당 Single-Task 학습은 GPT-1 논문에서 볼 수 있다. 따라서 인간처럼 다양한 맥락 속에서 자연스럽게 언어를 학습하고, 이를 통해 여러 Task를 수행할 수 있는 범용 모델이 필요하다. 이 말은 즉슨, Fine-tuning 없이 Unlabeled Data로의 학습만으로 여러 Task를 수행 가능한 범용 모델이 요구된다는 것이다.
2. 연구 목표
본 논문의 핵심 목표는 대규모 언어 모델(Language Model, LM)을 대규모 데이터 셋으로 학습시키면, 별도의 Task별 지도학습 없이도 자연스럽게 Multi-Task을 수행할 수 있는지를 확인하는 것이다.
즉, GPT-2 연구는 기존의 지도학습 기반 접근을 넘어, 비지도 학습 + Zero-Shot Task 수행이라는 새로운 패러다임을 제시했다.
3. 방법론
3.1 언어모델링 접근
언어 모델은 기본적으로 문자열 시퀀스의 확률 분포를 추정하는 문제다.
수식으로는 다음과 같다.
즉, 이전 단어(토큰)를 조건으로 다음 단어의 확률을 예측하는 것이다. 이를 충분히 학습하면 문장을 생성할 수도 있고, 조건부 확률을 통해 특정 Task를 수행하는 것도 가능하다.
예:
- 번역: (“translate to french”, 영어 문장 → 프랑스어 문장)
- 질의응답: (“answer the question”, 본문, 질문 → 답변)
이처럼 자연어 자체를 Task 지시어(task instruction)로 활용하면, 별도의 아키텍처 변경 없이 하나의 모델이 다양한 Task를 수행할 수 있다.
3.2 학습 데이터셋 – WebText
기존 언어모델은 뉴스, 위키피디아, 소설 등 단일 도메인 데이터셋에 의존했다. 그러나 GPT-2는 다양한 Task를 학습하기 위해 웹 전반의 데이터를 수집할 필요가 있었다.
- WebText 구성: Reddit에서 3 karma 이상 받은 외부 링크를 크롤링 → 사람이 어느 정도 “유용하다”고 판단한 고품질 텍스트만 선별.
- 크기 : 약 8백만 문서, 40GB 텍스트
- Wikipedia 제외 : 평가 시 데이터 중복을 방지하기 위함.
WebText에는 자연스럽게 번역 예문, 요약, 질의응답 등 다양한 Task의 시연 데이터가 포함되어 있었다. 이를 통해 모델은 비지도 학습만으로도 다중 Task 학습 효과를 얻을 수 있었다.
3.3 Input Representation → Byte-Level BPE
문자 단위 LM은 표현력이 부족하고, 단어 단위 LM은 OOV 문제가 크다. GPT-2는 Byte Pair Encoding (BPE)을 변형하여 사용했다.
- 기본 단위: 바이트(256개)
- 빈번한 바이트 시퀀스는 병합하여 서브워드(Subword)로 구성
- 최종 어휘집 크기: 50,257개
이 방식은 모든 유니코드 문자열을 처리 가능하면서도, 단어 기반 모델과 비슷한 효율성을 유지한다.
3.4 모델 아키텍처
GPT-2는 Transformer decoder 아키텍처를 확장한 것이다.
- 기반: GPT-1 (2018) 구조 유지
- 변경점:
- LayerNorm을 블록 입력으로 이동 (pre-norm) Backpropagation 흐름의 차이를 확인해야 하는데, 짧게 요약하면 아래와 같다.Pre-Norm : Residual이 gradient 직통로를 보장 → 깊은 네트워크도 안정적으로 학습 가능.
- Post-Norm : Residual마저 Norm이 막아버려서 gradient 직통로가 없음 → 깊어질수록 불안정.
- Residual 경로 초기화 시 깊이에 따른 스케일링 적용 → GPT-1보다 깊이가 깊어졌기 때문에 더 많은 Residual 누적은 Variance Exploiting 유도되기 때문에, 스케일링은 필수
- 문맥 길이(context window) 512 → 1024 토큰
- 배치 크기 증가 (512)
- 모델 크기 (4가지 버전)
가장 큰 모델 GPT-2는 약 15억 개 파라미터를 가진 거대 모델이다.
4. 실험 및 결과
4.1 언어모델링 성능
GPT-2는 8개 언어모델 벤치마크 중 7개에서 SOTA 달성했다. (제로샷 세팅)
특히 작은 데이터셋(Penn Treebank, WikiText-2)과 장기 문맥이 필요한 LAMBADA에서 크게 개선.
4.2 Children’s Book Test (CBT)
- 명사, 개체명 추론 능력 평가
- GPT-2(1.5B)는 93.3% (명사), 89.1% (개체명) → 인간 수준에 근접
4.3 LAMBADA
- 긴 문맥(50+ 토큰)을 요구하는 마지막 단어 예측 과제
- 기존 SOTA 정확도: 19%
- GPT-2: 63.24% → 대폭 향상
- 오류 분석: 마지막 단어 제약을 반영하지 않아 생긴 문제 → stop-word 필터로 개선
4.4 Winograd Schema Challenge
- 상식 추론 능력 평가
- GPT-2: 70.7% 정확도 → 기존 SOTA 대비 +7%
4.5 독해 (CoQA)
- 제로샷 세팅, 단순히 “문서 + 대화 내역 + A:” 입력 후 생성
- GPT-2 F1 = 55점
- 지도학습된 베이스라인 4개 중 3개를 초월 (127,000개의 학습 데이터 사용 X)
4.6 요약 (CNN/Daily Mail)
- “TL;DR:” 프롬프트 추가 후 생성
- 성능: ROUGE 기준 기존 신경망보다 낮음 (추출식 요약보다 못함)
- 하지만 언어적 품질은 요약에 가깝게 형성
4.7 번역 (영↔프)
- WebText에서 프랑스어 데이터는 10MB 미만 (거의 없음)
- 그럼에도 불구하고 영어→프랑스 BLEU = 5, 프랑스→영어 BLEU = 11.5
- 후자의 경우 기존 비지도 기계번역 기법보다 우수
4.8 질문응답 (Natural Questions)
- 제로샷 성능: EM 4.1% (여전히 낮음)
- 하지만 확신(confidence)이 높은 질문 subset에서는 63.1% 정확도
- 즉, 언어모델 내부에 지식이 저장되어 있음을 보여줌
5. 일반화 vs 암기 문제
WebText와 벤치마크 데이터셋 간 n-gram 중복을 조사: 평균 3.2% 수준.
일부 겹침이 있으나, 성능 향상 대부분은 일반화(generalization) 덕분임을 확인.
또한 GPT-2는 학습 데이터 일부(예: 유명 연설문)를 암기하기도 했으나, 대체로 Drift(Drift : 모델이 학습 데이터나 원문을 그대로 복사하지 않고, 일정 지점 이후부터는 점점 달라지는 경향)가 발생하며 그대로 복제하지는 않았다.
6. 논의
- 제로샷 성능은 흥미로운 연구 성과이지만, 실제 응용 단계에서 활용하기엔 부족하다. (예: 요약, QA 성능)
- 그러나 지도학습 없이도 다중 Task 수행이 가능하다는 점에서 중요한 패러다임 전환을 제시했다.
- 모델 크기와 데이터 다양성이 핵심 요인 → 용량(capacity) 증가가 거의 모든 Task에서 로그-선형적으로 성능 향상을 가져왔다.
- GPT-2는 BERT와 달리 단방향 LM임에도 불구하고, 데이터와 규모에서 압도적 성능을 보였다.
7. 결론
- 대규모 Transformer 기반 언어모델을 충분히 큰 데이터셋(WebText)으로 학습하면, 비지도 멀티Task 학습이 가능하다.
- GPT-2는 8개 벤치마크 중 7개에서 SOTA를 기록하며, 언어모델이 단순한 확률모형을 넘어 범용 인공지능에 가까워질 수 있음을 입증했다.
- 본 연구는 이후 GPT-3, ChatGPT 등 거대 언어모델(LLM)의 시대를 여는 초석이 되었다.
8. 한계와 후속 연구 방향
- 제로샷 성능의 불안정성: 일부 Task에서는 여전히 랜덤 수준
- 모델 암기(memorization) 문제 존재 → Need More Drift
- 추론 비용: 1.5B 파라미터는 당시 GPU 환경에서 훈련·추론 모두 비용이 높았다.
- 후속 연구 필요:
- Finetuning으로 Ceiling 성능 확인 → 본 논문에서는 Pre-Trained로만 성능 확인을 했기 떄문
- 더 긴 문맥 처리
- 상식 추론 강화
- 데이터 중복 제거나 안전성 확보