사전학습

중급

사전학습는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 중급 난이도로 사전학습의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

사전학습를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

사전학습(Pre-training)은 레이블이 없는 대규모 데이터를 이용해 모델의 기초 언어 능력을 학습하는 첫 번째 단계입니다. 이 단계에서 모델은 인터넷 문서·책·코드 등 방대한 텍스트를 처리하며 언어의 구조, 문법, 세계 지식을 습득합니다.

사전학습의 대표적인 목표는 다음 토큰 예측(next token prediction)입니다. 주어진 텍스트의 다음 단어가 무엇일지를 수십억 번 예측하는 과정을 반복하면서 언어 모델이 형성됩니다. 이 과정에는 엄청난 컴퓨팅 자원이 필요합니다. GPT-5.4나 Claude Opus 4.7 같은 모델의 사전학습에는 수만 개의 GPU와 수개월의 시간이 소요됩니다.

사전학습 이후에는 사람의 지시를 잘 따르도록 하는 명령어 튜닝(instruction tuning)과 인간 피드백 강화학습(RLHF)이 이어집니다. 사전학습된 모델을 기반 모델(base model)이라 부르고, 후속 정렬 과정까지 마친 모델을 채팅·어시스턴트 모델이라 부릅니다. Llama 4나 Mistral 같은 오픈소스 모델은 기반 모델과 명령어 튜닝 버전을 모두 공개합니다.

ℹ️쉽게 말하면

사전학습은 아이가 태어나 유치원·초·중·고등학교를 거치며 쌓는 기초 교육과 같습니다. 특정 직업 훈련(파인튜닝) 전에 읽기·쓰기·계산 등 기본 능력을 먼저 갖추는 단계입니다.

사전학습에 사용되는 데이터의 규모와 품질은 모델 성능에 직결됩니다. 대표적인 공개 학습 데이터셋으로는 Common Crawl(인터넷 수십억 페이지), The Pile, RedPajama, Wikipedia 등이 있습니다. 상용 모델들은 여기에 독점적으로 수집한 고품질 데이터를 추가합니다. 데이터 품질을 높이기 위해 중복 제거, 필터링, 정제 과정을 거치며, 이 과정 자체도 상당한 연구와 비용이 필요합니다.

사전학습의 규모를 수치로 이해하면 다음과 같습니다. GPT-3은 약 4,990억 개의 토큰으로 학습되었고, 그 이후 모델들은 수조 개 수준으로 증가했습니다. 학습 데이터의 언어 분포도 중요하며, 영어 데이터가 압도적으로 많은 탓에 비영어권 언어에 대한 성능 격차가 발생합니다. 한국어 특화 모델인 HyperCLOVA나 EXAONE 같은 모델은 한국어 데이터 비중을 높여 이 격차를 줄이려 한 사례입니다.

사전학습의 비용은 일반적인 상상을 초월합니다. GPT-4 수준 모델의 사전학습에는 수천만 달러에서 수억 달러가 소요되는 것으로 알려져 있습니다. 전력 소비량 역시 막대하여, 대규모 사전학습은 전용 데이터센터에서 수개월에 걸쳐 진행됩니다. 이 때문에 사전학습을 직접 수행할 수 있는 주체는 OpenAI, Anthropic, Google DeepMind, Meta AI 같은 대형 연구소나 기업으로 사실상 제한됩니다.

사전학습과 파인튜닝의 관계를 이해하는 것이 중요합니다. 사전학습이 일반 지식과 언어 능력의 기반을 만드는 단계라면, 파인튜닝은 그 위에 특정 분야 전문성이나 행동 패턴을 추가로 학습시키는 단계입니다. 예를 들어 의료 AI를 만들려면 일반 사전학습된 모델을 의료 문헌 데이터로 파인튜닝하는 방식을 씁니다. 좋은 사전학습 기반이 있어야 파인튜닝도 효과적으로 작동합니다.

사전학습에 관한 흔한 오해 중 하나는 학습 데이터에 포함된 내용은 모두 모델이 그대로 기억한다는 것입니다. 실제로는 수십억 개의 파라미터에 통계적인 패턴으로 분산 저장되는 방식이라서, 특정 문서를 원문 그대로 인출하는 것은 어렵습니다. 모델은 정보를 저장하는 것이 아니라 언어 패턴과 세계 지식을 압축하여 표현 방법을 학습합니다. 덕분에 학습에 사용하지 않은 새로운 유형의 문제에도 대응할 수 있는 일반화 능력을 갖추게 됩니다.

사전학습의 미래 방향도 주목할 만합니다. 텍스트 외에 이미지, 오디오, 영상 데이터를 함께 학습하는 멀티모달 사전학습이 주류가 되고 있습니다. GPT-5.4와 Gemini 3.1 Pro처럼 텍스트, 이미지, 음성을 동시에 이해하는 모델들이 그 결과입니다. 또한 합성 데이터(AI가 생성한 데이터)를 사전학습에 활용하는 방식도 연구되고 있습니다. 실제 인터넷 텍스트만으로는 고품질 추론 데이터를 충분히 확보하기 어렵기 때문에, 모델이 스스로 생성한 추론 과정을 다시 학습하는 자기 개선 방식이 점점 더 중요해지고 있습니다. 결국 사전학습은 현대 AI의 기반 인프라로서, AI 기술이 어떻게 발전하고 있는지를 이해하려면 사전학습의 동향을 함께 살펴보는 것이 중요합니다.