GPU

입문

GPU는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 입문 난이도로 GPU의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

GPU를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

GPU(Graphics Processing Unit, 그래픽 처리 장치)는 원래 3D 그래픽 렌더링을 위해 설계된 프로세서이지만, 오늘날 AI 모델 학습과 추론의 핵심 하드웨어로 자리 잡았습니다. 수천 개의 소형 코어가 병렬로 연산을 처리해, 행렬 곱셈 중심의 딥러닝에 최적화되어 있습니다.

AI 분야에서 GPU 시장은 NVIDIA가 압도적으로 주도하고 있습니다. CUDA 생태계와 함께 H100·H200·B200 등 데이터센터용 GPU가 ChatGPT·Claude·Gemini 등 주요 AI 서비스의 인프라를 지탱합니다. AMD의 Instinct 시리즈와 Google의 TPU(Tensor Processing Unit), 국내 리벨리온·사피온 같은 AI 반도체 스타트업도 시장에 도전하고 있습니다.

개인 사용자와 기업에게는 클라우드 GPU가 현실적인 선택지입니다. AWS(A100·H100), Google Cloud(TPU v5), Azure(H100)를 통해 필요한 만큼 GPU를 임대할 수 있습니다. 로컬에서 LLM을 돌리려면 Llama 4 같은 오픈소스 모델을 RTX 4090 이상의 GPU로 실행할 수 있으며, Apple Silicon M-시리즈도 소형 모델 추론에 사용됩니다.

ℹ️쉽게 말하면

CPU가 뛰어난 직원 한 명이 순차적으로 일을 처리한다면, GPU는 평범한 직원 수천 명이 같은 일을 동시에 나눠 처리합니다. AI 학습처럼 단순 반복 연산이 많을 때는 GPU가 압도적으로 빠릅니다.

GPU가 딥러닝에 적합한 이유를 조금 더 구체적으로 살펴보면, 신경망 학습의 핵심 연산이 행렬 곱셈과 벡터 연산이기 때문입니다. 예를 들어 트랜스포머 모델의 어텐션 연산은 수억 개의 부동소수점 곱셈을 반복합니다. CPU는 이러한 연산을 순차적으로 처리하도록 설계되었지만, GPU는 수천 개의 코어가 같은 연산을 동시에 처리할 수 있어 속도 차이가 수십 배에서 수백 배까지 벌어집니다.

NVIDIA의 CUDA 생태계는 GPU가 AI 시장을 독점하게 된 결정적 이유 중 하나입니다. CUDA는 개발자가 GPU 코어를 직접 프로그래밍할 수 있게 해주는 플랫폼으로, PyTorch·TensorFlow 같은 주요 딥러닝 프레임워크가 모두 CUDA를 기반으로 동작합니다. NVIDIA GPU 없이는 이 생태계를 그대로 사용하기 어렵기 때문에, 연구자와 기업 모두 NVIDIA 제품을 선택하게 됩니다.

GPU 수요는 ChatGPT 출시 이후 폭발적으로 증가했습니다. 데이터센터용 H100 GPU는 한때 장당 40,000달러를 넘어섰고, 클라우드 임대 비용도 시간당 수십 달러에 달했습니다. 이 때문에 AI 스타트업들이 GPU를 확보하는 것 자체가 사업의 핵심 경쟁력이 되는 시기가 있었습니다. NVIDIA의 시가총액이 3조 달러를 넘어서면서 GPU 제조사가 AI 시대의 최대 수혜 기업 중 하나가 되었습니다.

GPU 외에 AI 전용 칩도 빠르게 발전하고 있습니다. Google의 TPU는 자사 AI 서비스에 최적화된 전용 칩으로, 범용 GPU보다 특정 워크로드에서 더 나은 전력 효율을 보입니다. Amazon의 Trainium과 Inferentia, Meta의 MTIA, 삼성과 SK하이닉스의 PIM(Processing-In-Memory) 기술도 AI 연산 시장을 노리고 있습니다. 하지만 소프트웨어 생태계 성숙도에서 NVIDIA CUDA를 따라잡으려면 아직 시간이 필요합니다.

개인이 로컬에서 AI 모델을 실행할 때 GPU 선택은 실질적인 고려 사항입니다. 7B~13B 파라미터 크기의 소형 모델은 VRAM 8GB 수준의 RTX 3080 이상에서 실행 가능하고, 70B 모델은 VRAM 40GB 이상이 필요합니다. Apple Silicon의 통합 메모리 구조는 VRAM과 시스템 메모리를 공유해, M2 Max(96GB) 같은 고사양 MacBook에서 꽤 큰 모델을 효율적으로 실행할 수 있습니다. 결국 로컬 AI 환경을 구축할 때는 모델 크기와 GPU VRAM 용량을 먼저 맞춰 보는 것이 중요합니다.

GPU와 CPU의 실질적 차이를 숫자로 보면 더 명확합니다. 현재 최상위 소비자용 CPU인 AMD Ryzen 9 7950X는 16코어를 갖추고 있습니다. 반면 NVIDIA H100 GPU는 80GB HBM3 메모리와 함께 16,896개의 CUDA 코어를 탑재합니다. 딥러닝 모델 학습처럼 같은 연산을 대량으로 반복하는 작업에서는 이 코어 수 차이가 수십 배의 속도 차이로 직결됩니다. 다만 운영체제, 파일 입출력, 복잡한 분기 처리가 많은 일반 컴퓨팅에서는 여전히 CPU가 유리합니다.

AI 모델 서빙(추론) 단계에서도 GPU는 핵심 역할을 합니다. ChatGPT 같은 서비스가 수백만 명의 동시 요청을 처리하려면 각 요청마다 수십억 개의 행렬 연산이 필요합니다. 이를 실시간으로 처리하기 위해 데이터센터에는 수천 개의 GPU 서버가 운영됩니다. 또한 추론 최적화 기술인 양자화(quantization), FlashAttention, PagedAttention 같은 기법도 GPU 아키텍처에 맞게 설계되어 있어, GPU 없이는 현재 수준의 AI 서비스 속도와 규모를 유지하기 어렵습니다.

AI 시대에 GPU는 단순한 부품을 넘어 지정학적 자원이 되었습니다. 미국 정부는 첨단 AI GPU, 특히 NVIDIA A100과 H100의 수출을 중국과 일부 국가에 규제하고 있습니다. 이 규제의 배경에는 첨단 GPU를 확보한 나라와 기업이 AI 연구에서 우위를 점할 수 있다는 판단이 있습니다. 한국, 일본, 유럽 국가들도 자국의 AI 인프라 확충을 위해 GPU 클러스터 투자를 국가 전략으로 삼고 있습니다.