Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (RAG) (Patrick Lewis et al.)
·
AI Research Paper Review/Post-Transformer
본 논문은 Retrieval-Augmented Generation (RAG)이라는 새로운 프레임워크를 제안하여, Parametric Memory와 Non-Parametric Memory을 결합해 Knowledge-Intensive NLP Task를 해결하고자 한다. 기존 LM은 대규모 데이터로 학습하여 파라미터로 저장하지만 정보의 갱신·설명·사실성 유지에 한계가 있었고, ORQA·REALM 같은 선행 연구는 주로 Extractive QA에 머물렀다. RAG는 Dense Passage Retriever(DPR)로 관련 문서를 검색하고, BART 기반 생성기로 이를 활용해 답변을 생성하며, Evidence Supervision 없이 End-to-End로 학습된다. 두 가지 변형(RAG-Sequence, RA..
Language Models are Few-Shot Learners (GPT-3) (TomB. Brown et al.)
·
AI Research Paper Review/Post-Transformer
본 논문은 1750억 파라미터를 가진 초대규모 언어모델 GPT-3를 제안하며, 별도의 Fine-Tuning 없이 단순히 프롬프트에 몇 개의 예시만 제시해도 다양한 자연어 과제를 해결할 수 있는 Few-Shot 학습 능력을 입증했다. 연구진은 모델 크기, 데이터, 연산량을 늘릴수록 성능이 예측 가능한 패턴으로 향상된다는 스케일링 법칙을 검증했고, 그 결과 GPT-3는 번역, 질의응답, 추론, 텍스트 생성 등에서 기존 파인튜닝 모델에 맞먹거나 능가하는 성능을 보여주었다. 그러나 여전히 편향, 데이터 오염, 수학적 추론 한계, 막대한 계산 비용 같은 제약이 존재한다. 그럼에도 GPT-3는 언어모델이 단순한 통계 도구를 넘어 범용 학습자로 발전할 수 있음을 보여주며, 범용 인공지능(AGI)을 향한 중요한 전환점..
Language Models are Unsupervised Multitask Learners (GPT-2) (Alec Radford et al.) - [OpenAI 2019]
·
AI Research Paper Review/Post-Transformer
본 논문은 GPT-2라는 15억 파라미터 규모의 초대형 LM을 제안하며, 지도학습 없이도(zero-shot) 다양한 NLP 과제를 수행할 수 있다는 것을 보였다. 연구팀은 Reddit 기반의 고품질 웹 크롤링 데이터셋 WebText(40GB, 8M 문서)를 구축해 모델을 학습시켰고, 그 결과 GPT-2는 요약·번역·질의응답·독해 등 여러 태스크에서 별도 파인튜닝 없이도 경쟁력 있는 성능을 냈다. 특히 언어모델링 벤치마크 8개 중 7개에서 새로운 SOTA 성능을 기록하며, 모델 크기 확장이 성능을 로그-선형적으로 끌어올린다는 사실을 입증했다. 또한 GPT-2는 일부 학습 데이터를 암기하긴 했으나 대부분은 새로운 문장을 창의적으로 생성(Drift)하며 Unsupervised Multitask Learner로..
Improving Language Understanding by Generative Pre-Training (GPT-1) (Alec Radford et al.) - [2018 OpenAI]
·
AI Research Paper Review/Post-Transformer
본 논문은 부족한 Labeled Data의 문제를 해결하기 위해, 방대한 Unlabeled 텍스트를 활용한 Generative Pre-training 접근을 제안한다. 구체적으로 GPT-1은 12층 Transformer 디코더를 BooksCorpus에서 언어 모델링으로 학습한 뒤, 각 과제에 맞게 미세조정(Fine-tuning) 하여 적용한다. 이 과정에서 Task마다 새로운 아키텍처를 설계하지 않고 최상단 헤드만 바꿔, 입력을 하나의 연속 시퀀스로 변환하는 방식(Premise | Hypothesis, Context | Answer 등)을 사용해 범용성을 확보하였다. 그 결과 NLI, QA, 문장 유사도, 텍스트 분류 등 12개 과제 중 9개에서 새로운 SOTA를 달성하며 특히 Story Cloze(+8..
Attention Is All You Need (Transformer) (Ashish Vaswani et al.) - [2017 NIPS]
·
AI Research Paper Review/Post-Transformer
본 논문에서 제안한 Transformer는 기존 신경망 기반 기계번역(NMT) 모델이 가진 순차적 계산으로 인한 학습·추론 속도 저하, 장거리 의존성 학습의 어려움, 병렬화의 한계를 해결하기 위해 설계된 완전 어텐션 기반 시퀀스 변환 모델이다. Transformer는 순환(RNN)과 합성곱(CNN) 구조를 완전히 제거하고, 인코더·디코더 각각에 Multi-Head Self-Attention과 Feed-Forward Network를 결합한 블록을 다층으로 적층하는 단순한 구조를 취한다. 디코더에서는 Masked Self-Attention으로 미래 단어 참조를 차단하고, 인코더 출력과 결합하는 Cross-Attention으로 입력 문장의 전역 정보를 활용한다. 또한 단어 순서를 학습하기 위해 Position..