그래디언트 디센트

고급

그래디언트 디센트는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 고급 난이도로 그래디언트 디센트의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

그래디언트 디센트를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

그래디언트 디센트(Gradient Descent, 경사 하강법)는 손실 함수를 최소화하기 위해 가중치를 손실 함수의 기울기(그래디언트) 반대 방향으로 조금씩 이동시키는 최적화 알고리즘입니다. 딥러닝 모델 학습의 근본적인 원리이며, 역전파와 함께 작동합니다.

그래디언트 디센트의 핵심 하이퍼파라미터는 학습률(learning rate)입니다. 학습률이 너무 크면 최솟값을 지나쳐 발산하고, 너무 작으면 수렴이 느립니다. 실제 학습에서는 전체 데이터 대신 미니배치를 사용하는 SGD(Stochastic Gradient Descent)가 일반적이며, Adam·AdamW·RMSProp 같은 발전된 옵티마이저가 학습률을 자동 조정해 수렴 속도를 높입니다. GPT-5.4·Claude Opus 4.7 같은 대형 모델 학습에는 주로 AdamW 옵티마이저를 사용합니다.

그래디언트 디센트의 주요 과제는 지역 최솟값(local minimum)과 안장점(saddle point)에 빠지지 않는 것입니다. 배치 크기, 학습률 스케줄러(cosine annealing·warm-up), 그래디언트 클리핑 등 여러 기법으로 안정적인 수렴을 도모합니다. 학습률 찾기(learning rate finder)는 최적 학습률을 빠르게 탐색하는 실용적 방법입니다.

ℹ️쉽게 말하면

안개 낀 산에서 눈을 감고 가장 낮은 곳을 찾아 내려갈 때, 발밑의 경사도만 느끼며 조금씩 내려가는 것과 같습니다. 매 발걸음(이터레이션)마다 '지금 서 있는 곳이 어느 방향으로 기울어졌는가'를 계산해 그 반대 방향으로 이동합니다.

그래디언트 디센트를 이해하려면 먼저 손실 함수의 개념을 알아야 합니다. 손실 함수는 모델이 내놓은 예측값과 실제 정답이 얼마나 차이 나는지를 숫자로 표현한 것입니다. 예를 들어 모델이 고양이 사진을 '개'라고 분류했다면 손실값이 크게 나오고, '고양이'라고 정확히 분류했다면 손실값이 작게 나옵니다. 그래디언트 디센트는 이 손실값을 최대한 줄이는 방향으로 모델의 가중치(파라미터)를 조금씩 조정하는 과정입니다.

그래디언트 디센트에는 세 가지 주요 변형이 있습니다. 배치 그래디언트 디센트는 전체 학습 데이터를 한 번에 사용해 그래디언트를 계산합니다. 메모리를 많이 쓰지만 안정적으로 수렴합니다. 확률적 그래디언트 디센트(SGD)는 데이터 하나씩 순서대로 처리하므로 빠르지만 불안정할 수 있습니다. 미니배치 SGD는 두 방식의 절충안으로, 보통 32~512개 샘플을 묶어 처리하며 현대 딥러닝에서 가장 많이 사용합니다.

Adam(Adaptive Moment Estimation) 옵티마이저는 그래디언트 디센트를 실제로 쓸 때 가장 많이 선택하는 알고리즘입니다. Adam은 각 파라미터마다 학습률을 다르게 적용하고, 이전 그래디언트의 방향을 기억해 관성처럼 활용합니다. AdamW는 Adam에 가중치 감쇠(weight decay)를 개선하게 수정한 버전으로, 대형 언어 모델 학습에 표준적으로 사용됩니다. 이런 발전된 옵티마이저 덕분에 수억 개 파라미터를 가진 모델도 안정적으로 학습시킬 수 있습니다.

학습률 스케줄러는 그래디언트 디센트의 성능을 높이는 중요한 기법입니다. 학습 초반에는 학습률을 점진적으로 높이는 워밍업(warm-up) 구간을 두고, 이후 코사인 함수 형태로 서서히 낮춥니다. 이를 코사인 어닐링(cosine annealing)이라 부릅니다. 처음부터 높은 학습률을 쓰면 모델이 불안정해질 수 있고, 끝까지 높은 학습률을 유지하면 최솟값 근처에서 진동합니다. 스케줄러는 이 두 문제를 동시에 해결합니다.

그래디언트 디센트는 역전파(backpropagation) 알고리즘과 함께 작동합니다. 역전파는 손실값이 각 파라미터에 얼마나 영향을 미쳤는지를 미적분의 연쇄 법칙으로 계산합니다. 이렇게 계산된 각 파라미터의 그래디언트를 이용해 그래디언트 디센트가 가중치를 업데이트합니다. 이 두 알고리즘의 조합이 수십억 개의 파라미터를 가진 현대 대형 언어 모델을 학습시키는 근간입니다.

그래디언트 폭발(gradient explosion)과 그래디언트 소실(vanishing gradient)은 그래디언트 디센트가 깊은 신경망에서 겪는 대표적인 문제입니다. 그래디언트 소실은 역전파 과정에서 그래디언트 값이 층을 거슬러 올라갈수록 지수적으로 작아져 앞쪽 층이 거의 학습되지 않는 현상입니다. 반대로 그래디언트 폭발은 값이 급격히 커져 학습이 발산하는 현상입니다. 그래디언트 클리핑, 배치 정규화(batch normalization), 잔차 연결(residual connection) 같은 기법이 이 문제를 완화하는 데 사용됩니다.

대형 언어 모델 학습에서 그래디언트 디센트는 수백만 스텝 이상 반복됩니다. GPT-3의 경우 약 3,000억 토큰의 데이터로 학습하며 수십만 번의 가중치 업데이트가 이루어졌습니다. 이 과정에서 수천 개의 GPU가 분산 학습을 통해 그래디언트를 나눠 계산하고 동기화합니다. 데이터 병렬화, 모델 병렬화, 파이프라인 병렬화 같은 분산 학습 전략이 없으면 수조 개의 파라미터를 가진 최신 모델을 현실적인 시간 안에 학습시키는 것이 불가능합니다.

그래디언트 디센트는 머신러닝 실무에서 직접 코드로 구현할 일이 많지 않습니다. PyTorch나 TensorFlow 같은 딥러닝 프레임워크가 역전파와 그래디언트 계산을 자동으로 처리합니다. 하지만 학습이 기대만큼 잘 되지 않을 때 문제를 진단하려면 그래디언트 디센트의 원리를 이해해야 합니다. 학습률이 잘못 설정되었는지, 배치 크기가 너무 작아 그래디언트 노이즈가 큰지, 특정 층에서 그래디언트가 사라지는지 파악하려면 이 개념이 필수입니다.