오버피팅

중급

오버피팅는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 중급 난이도로 오버피팅의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

오버피팅를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

오버피팅(Overfitting, 과적합)은 머신러닝 모델이 학습 데이터에 지나치게 맞춰져, 새로운 데이터(테스트셋)에서는 성능이 크게 떨어지는 현상입니다. 모델이 데이터의 실제 패턴이 아닌 노이즈와 이상값까지 외워버린 상태입니다.

오버피팅이 발생하는 주요 원인은 학습 데이터가 너무 적거나, 모델이 너무 복잡하거나, 학습을 지나치게 오래 할 때입니다. 반대 개념인 언더피팅(underfitting)은 모델이 너무 단순해 학습 데이터조차 제대로 학습하지 못한 상태입니다. 방지 기법으로는 드롭아웃(Dropout), L1/L2 정규화, 데이터 증강(Data Augmentation), 조기 종료(Early Stopping) 등이 있습니다.

실용적인 진단 방법은 학습 손실과 검증 손실을 함께 추적하는 것입니다. 학습 손실은 계속 줄어드는데 검증 손실이 오히려 늘어나기 시작하면 오버피팅 신호입니다. 교차 검증(cross-validation)을 통해 모델의 일반화 능력을 미리 평가하는 것도 중요합니다.

ℹ️쉽게 말하면

시험 문제를 답과 함께 달달 외운 학생이 같은 문제는 맞히지만, 조금 변형된 새 문제는 전혀 못 푸는 것과 같습니다. 이해 없이 암기만 한 셈입니다.

오버피팅을 방지하는 가장 기본적인 방법은 데이터셋 분리입니다. 전체 데이터를 훈련셋(Training set), 검증셋(Validation set), 테스트셋(Test set)으로 나눠 각각 다른 용도로 사용합니다. 훈련셋으로 모델을 학습시키고, 검증셋으로 학습 중 성능을 모니터링하며, 테스트셋은 최종 평가에만 사용합니다. 테스트셋을 학습 과정에 노출하면 무의식적으로 테스트셋에 맞춰 설계하게 되어 오버피팅과 비슷한 문제가 생깁니다.

정규화(Regularization)는 오버피팅을 줄이는 핵심 기법 중 하나입니다. L1 정규화(Lasso)는 불필요한 특성의 가중치를 0으로 만들어 모델을 단순하게 만듭니다. L2 정규화(Ridge)는 가중치가 지나치게 커지지 않도록 제한합니다. 두 방법 모두 손실 함수에 패널티 항을 추가해 모델이 학습 데이터에 과하게 의존하지 못하도록 만드는 원리입니다.

딥러닝에서 자주 사용하는 드롭아웃(Dropout)은 학습 중 신경망 노드의 일부를 무작위로 비활성화하는 방법입니다. 특정 노드에 지나치게 의존하는 것을 막아 모델이 더 강건한 표현을 학습하도록 유도합니다. 예를 들어 드롭아웃 비율을 0.5로 설정하면 매 학습 단계마다 절반의 노드가 무작위로 꺼지며 학습이 진행됩니다. 덕분에 모델이 다양한 노드 조합에서도 올바른 예측을 내놓을 수 있게 됩니다.

대형 언어 모델(LLM) 분야에서도 오버피팅은 중요한 문제입니다. 특히 파인튜닝(Fine-tuning) 과정에서 학습 데이터가 적거나 학습 에포크 수가 너무 많으면 오버피팅이 쉽게 발생합니다. 파인튜닝된 모델이 학습에 사용한 샘플과 거의 동일한 입력에만 잘 반응하고, 조금만 다른 표현이나 새로운 주제에서는 성능이 급격히 저하되는 것이 그 증상입니다. 이를 방지하기 위해 학습 데이터 다양성을 높이고, 학습 에포크를 적게 유지하며, 평가 세트로 지속적으로 성능을 검증하는 것이 권장됩니다.

오버피팅과 반대편에 있는 개념인 일반화(Generalization)는 모델이 학습에 사용하지 않은 새로운 데이터에서도 좋은 성능을 내는 능력을 말합니다. 좋은 머신러닝 모델의 궁극적 목표는 높은 일반화 성능이고, 오버피팅은 이 목표를 방해하는 가장 흔한 장애물입니다. 결국 모델 복잡도, 데이터 양, 학습 시간 세 가지 사이의 균형을 잘 맞추는 것이 오버피팅을 피하는 핵심입니다.

데이터 증강(Data Augmentation)은 오버피팅을 줄이는 또 다른 효과적인 방법입니다. 원본 데이터를 약간 변형해 학습 데이터 양을 늘리는 기법으로, 이미지 분류 모델 학습에서는 사진을 좌우 반전하거나 밝기를 바꾸거나 일부를 잘라내어 다양한 변형 이미지를 만듭니다. 자연어 처리에서는 동의어 교체, 문장 순서 변경, 번역 후 역번역 같은 방법을 사용합니다. 이렇게 다양한 형태의 데이터를 학습하면 모델이 특정 패턴에 과하게 의존하는 것을 막을 수 있습니다.

오버피팅은 머신러닝 실무에서 가장 자주 마주치는 문제 중 하나이므로, 실제 프로젝트에서는 처음부터 검증 파이프라인을 구축해두는 것이 좋습니다. 학습 초기부터 검증 손실을 추적하고, 조기 종료 콜백을 설정하며, 정기적으로 홀드아웃 테스트셋으로 평가하는 습관이 중요합니다. 오버피팅을 발견했을 때는 더 많은 데이터를 수집하거나, 모델 구조를 단순하게 조정하거나, 정규화 강도를 높이는 순서로 대응하는 것이 일반적입니다.