양자화

고급

양자화는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 고급 난이도로 양자화의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

양자화를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

양자화(Quantization)는 AI 모델의 가중치를 높은 정밀도(FP32, FP16)에서 낮은 정밀도(INT8, INT4)로 변환하여 메모리 사용량을 줄이고 추론 속도를 높이는 최적화 기법입니다.

70B 파라미터 모델을 FP16으로 로드하면 약 140GB VRAM이 필요하지만, 4비트 양자화(INT4)를 적용하면 35GB로 줄어듭니다. 품질 손실은 있지만 실용적인 수준에서 허용됩니다. Ollama에서 사용하는 GGUF 포맷이 대표적인 양자화 모델 형식이며, Q4_K_M, Q8_0 같은 옵션으로 품질과 속도의 균형을 조절합니다.

로컬에서 Llama 4 같은 대형 모델을 M2 MacBook이나 일반 PC에서 실행할 수 있는 것도 양자화 덕분입니다. llama.cpp와 Ollama가 GGUF 기반 양자화를 지원하며, GPU 없이도 CPU 추론을 가능하게 합니다.

ℹ️쉽게 말하면

고화질 RAW 사진(FP32)을 JPEG(INT8)으로 압축하는 것과 같습니다. 파일이 작아지고 전송이 빨라지지만, 원본과 완전히 동일하지는 않습니다.

양자화가 중요한 이유는 AI 모델의 실용적 접근성과 직접 연결되기 때문입니다. 수백억 파라미터를 가진 모델은 원래 데이터 센터급 하드웨어에서만 실행 가능합니다. 하지만 양자화를 적용하면 같은 모델을 소비자용 GPU나 심지어 CPU만으로도 실행할 수 있게 됩니다. 연구자뿐 아니라 일반 개발자와 개인 사용자도 강력한 AI를 자신의 장비에서 직접 사용할 수 있는 환경이 만들어집니다.

양자화 방식은 크게 두 가지로 나뉩니다. 훈련 후 양자화(PTQ, Post-Training Quantization)는 이미 학습된 모델에 사후적으로 정밀도를 낮추는 방식입니다. 추가 학습 없이 빠르게 적용할 수 있어 가장 널리 사용됩니다. 반면 양자화 인식 훈련(QAT, Quantization-Aware Training)은 훈련 과정 자체에서 양자화를 시뮬레이션하여 정밀도 손실을 최소화합니다. PTQ보다 품질이 높지만, 추가 학습 비용이 필요합니다.

정밀도 선택에 따라 트레이드오프가 달라집니다. FP32(32비트 부동소수점)는 원본 정밀도이며 가장 높은 품질을 제공하지만 메모리를 가장 많이 차지합니다. FP16(16비트 반정밀도)은 FP32 대비 메모리를 절반으로 줄이면서도 품질 손실이 거의 없어 현재 가장 많이 사용되는 기본 형식입니다. INT8(8비트 정수)은 다시 절반으로 줄어들며 속도도 빨라집니다. INT4(4비트 정수)는 최대 압축률을 보이지만 복잡한 추론이나 긴 문장 생성에서 품질 저하가 눈에 띄기 시작합니다.

GGUF 포맷에서 자주 보이는 Q4_K_M, Q5_K_M, Q8_0 같은 명칭도 양자화 수준을 나타냅니다. 숫자는 비트 수를 의미하고, K는 k-quants 방식을 뜻하며, M은 중간 크기 변형(Medium)을 가리킵니다. 일반적으로 Q4_K_M이 속도와 품질의 균형이 가장 좋다는 평가를 받아 로컬 실행에서 기본값으로 많이 선택됩니다.

양자화는 엣지 컴퓨팅 분야에서도 중요합니다. 스마트폰이나 IoT 기기처럼 메모리와 전력이 제한된 환경에서 AI 기능을 실행하려면 모델 크기를 극단적으로 줄여야 합니다. Apple의 Core ML, Google의 TensorFlow Lite, Qualcomm의 AI Engine 모두 양자화된 모델을 최우선으로 지원합니다. 결국 양자화는 AI를 클라우드에서 개인 기기로 가져오는 핵심 기술입니다.

흔한 오해 중 하나는 양자화하면 모델이 '망가진다'는 것입니다. 실제로는 적절한 비트 수를 선택하면 대부분의 일반 사용 시나리오에서 FP16 원본과 체감 차이가 거의 없습니다. 수학 연산이나 코드 생성 같이 정밀도가 중요한 작업에서는 Q8_0 이상을 권장하지만, 일반 대화나 글쓰기 보조 용도라면 Q4_K_M으로도 충분합니다.

양자화는 클라우드 API 서비스에서도 적극적으로 사용됩니다. 수천 명이 동시에 요청하는 환경에서는 모델 하나를 메모리에 올리는 비용이 직접 수익과 연결됩니다. 같은 GPU 클러스터에서 더 많은 요청을 처리하려면 모델 크기를 최대한 줄이는 것이 유리합니다. 그래서 클라우드 제공사들은 내부적으로 INT8 또는 INT4 양자화 모델을 운용하며 추론 비용을 낮춥니다.

양자화 기술은 계속 발전하고 있습니다. GPTQ, AWQ, GGUF 같은 포맷들은 단순히 비트 수를 줄이는 것을 넘어, 중요한 가중치를 선별적으로 높은 정밀도로 유지하는 혼합 정밀도 방식을 사용합니다. 이 덕분에 낮은 비트 수에서도 성능 저하를 최소화할 수 있습니다. 앞으로도 더 적은 메모리로 더 높은 품질을 유지하는 방향으로 발전할 것입니다.