증류
고급증류는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 고급 난이도로 증류의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.
증류를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.
증류(Knowledge Distillation)는 크고 성능 좋은 모델(teacher)이 생성한 출력을 학습 데이터로 삼아 작은 모델(student)을 훈련시키는 기법입니다. 대형 모델의 지식과 추론 패턴을 경량 모델에 압축 전달합니다.
증류가 중요한 이유는 추론 비용과 속도 때문입니다. Claude Opus 4.6 수준의 응답 품질을 Haiku 4.5 크기 모델로 근사할 수 있다면, API 비용이 10~50배 절감됩니다. OpenAI의 GPT-4.1 역시 대형 모델을 teacher로 활용한 증류 과정을 거쳤습니다. 최근에는 추론 모델(o3, o4-mini)의 사고 과정 데이터를 활용하는 '추론 증류'도 주목받고 있습니다.
실제 예시로, Meta의 Llama 4는 더 큰 teacher 모델의 출력으로 훈련된 증류 버전을 함께 제공합니다. 기업 환경에서는 GPT-4.1의 응답으로 자체 소형 모델을 증류해 온프레미스 배포에 활용하기도 합니다.
베테랑 요리사(teacher 모델)가 레시피를 정리해서 수련생(student 모델)에게 전수하는 것과 같습니다. 수련생은 독학보다 훨씬 빠르게 높은 수준에 도달합니다.
증류 기법의 원리를 좀 더 기술적으로 살펴보면, 일반적인 모델 훈련과 다른 점이 있습니다. 일반 지도학습에서 student 모델은 정답 레이블(하드 레이블)만 보고 학습합니다. 반면 증류에서는 teacher 모델의 소프트 레이블, 즉 각 클래스에 대한 확률 분포 전체를 학습 신호로 사용합니다. 예를 들어 고양이 이미지에 대해 teacher가 '고양이 95%, 호랑이 3%, 개 2%'라고 예측했다면, student는 단순히 '고양이'라는 정답만이 아니라 이 확률 분포 자체를 모방하도록 훈련됩니다. 이 소프트 레이블에는 teacher가 학습한 개념 간의 유사성과 관계 정보가 담겨 있습니다.
증류의 종류도 다양합니다. 응답 기반 증류(Response-based Distillation)는 teacher의 최종 출력만을 학습 신호로 사용하는 가장 기본적인 방식입니다. 특징 기반 증류(Feature-based Distillation)는 teacher의 중간 레이어 표현도 함께 모방합니다. 관계 기반 증류(Relation-based Distillation)는 데이터 샘플들 사이의 관계 패턴까지 student에게 전달합니다. 최근에는 대형 언어 모델의 사고 과정(chain-of-thought) 데이터를 소형 모델에 전달하는 추론 증류가 특히 주목받고 있습니다.
추론 증류(Reasoning Distillation)는 o1, o3, o4-mini 같은 추론 모델이 생성한 긴 사고 과정 데이터를 활용합니다. 추론 모델은 문제를 풀기 전에 단계별 사고 과정을 길게 펼치는데, 이 과정 데이터를 소형 모델이 학습하면 직접 훈련했을 때보다 훨씬 강력한 추론 능력을 갖추게 됩니다. DeepSeek-R1이 이 방식을 공개적으로 사용해 큰 주목을 받았습니다.
증류와 파인튜닝은 다른 개념입니다. 파인튜닝은 기존 모델을 특정 작업이나 데이터셋에 맞게 추가 훈련하는 것으로, 모델 크기나 구조는 그대로 유지됩니다. 증류는 더 큰 teacher 모델의 지식을 더 작은 student 모델로 옮기는 과정입니다. 실제 프로젝트에서는 두 기법을 함께 사용하는 경우가 많습니다. 먼저 증류로 소형 모델을 만들고, 이후 자신의 데이터로 파인튜닝해 특정 도메인에 최적화하는 방식입니다.
증류의 실용적 가치는 엣지 컴퓨팅과 온디바이스 AI에서 특히 큽니다. 스마트폰, IoT 기기, 자동차 내장 시스템처럼 연산 자원이 제한된 환경에서도 대형 모델 수준의 능력을 활용할 수 있게 합니다. Apple이 iPhone에서 실행하는 온디바이스 AI나 구글의 Gemini Nano가 증류 기법을 적극 활용합니다. 클라우드 API 비용을 낮추거나 오프라인 환경에서 AI를 구동해야 하는 기업에게도 증류 모델이 핵심 선택지가 됩니다.
증류의 한계도 있습니다. teacher 모델보다 student 모델이 더 뛰어난 성능을 내기는 어렵습니다. 압축 비율이 높을수록 성능 손실도 커집니다. 또한 teacher 모델이 가진 편향(bias)이나 오류가 student 모델에도 전달될 수 있습니다. 그래서 증류 이후 별도 검증 과정을 거쳐 성능 저하 수준을 확인하고, 허용 가능한 범위 안에 있을 때만 배포하는 것이 좋습니다.
증류와 양자화(Quantization)는 모두 모델 경량화 기법이지만 접근 방식이 다릅니다. 양자화는 모델 파라미터를 32비트 부동소수점에서 8비트 정수나 4비트 등 낮은 정밀도로 변환해 메모리와 연산량을 줄입니다. 증류는 더 작은 구조의 새 모델을 처음부터 훈련시킵니다. 두 기법을 함께 사용하는 것도 가능합니다. 증류로 만든 소형 모델에 양자화를 추가 적용하면 스마트폰이나 마이크로컨트롤러 같은 극히 제한된 환경에서도 AI 모델을 실행할 수 있습니다.
AI 서비스를 직접 개발하는 팀이라면 증류를 비용 최적화 전략으로 적극 고려해볼 만합니다. 프로토타입 단계에서는 GPT-4.1 같은 대형 모델 API를 써서 기능을 빠르게 검증하고, 서비스 규모가 커지면 그 응답 데이터로 소형 모델을 증류해 자체 배포하는 방식입니다. 이 전환 시점을 잘 잡으면 API 비용을 크게 줄이면서도 서비스 품질을 유지할 수 있습니다. 단, 증류 모델의 성능 저하 허용 기준과 도메인 특화 평가 지표를 사전에 정의해두는 것이 중요합니다.
