추론 (Inference)

입문

추론 (Inference)는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 입문 난이도로 추론 (Inference)의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

추론 (Inference)를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락, 관련 글 3개를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

추론(Inference)은 학습이 완료된 AI 모델이 새로운 입력에 대해 결과를 생성하는 과정입니다. 모델을 '만드는' 과정이 학습(Training)이라면, 만들어진 모델을 '사용하는' 과정이 추론입니다. ChatGPT에 질문을 보내고 답변을 받는 매 순간이 추론에 해당합니다.

학습(Training)과 추론은 AI의 두 가지 핵심 단계입니다. 학습은 대규모 데이터와 수천 개의 GPU로 수주에서 수개월에 걸쳐 진행되며, 모델의 파라미터를 조정하는 과정입니다. 반면 추론은 학습된 모델을 고정한 채로 새로운 입력을 처리하여 출력을 생성하는 것입니다.

추론 성능은 AI 서비스의 사용자 경험을 좌우합니다. 주요 지표로는 첫 토큰이 나오기까지의 시간인 TTFT(Time To First Token)와 초당 생성되는 토큰 수인 TPS(Tokens Per Second)가 있습니다. API 가격도 추론 비용을 기반으로 책정되며, 입력 토큰과 출력 토큰에 각각 다른 단가가 적용됩니다.

ℹ️쉽게 말하면

시험 공부가 학습(Training)이라면, 실제 시험을 보는 것이 추론(Inference)입니다. 공부는 한 번 하면 끝이지만, 시험은 매번 새로운 문제를 풀어야 합니다. AI도 학습은 한 번 하고, 추론은 사용자가 요청할 때마다 반복합니다.

추론이 실제로 어떻게 작동하는지 더 자세히 살펴보면, 언어 모델의 추론은 토큰 생성의 연속입니다. 모델은 입력 텍스트를 받아 다음에 올 가장 적절한 토큰을 예측하고, 그 토큰을 다시 입력에 추가해 다음 토큰을 예측하는 과정을 반복합니다. 이 과정을 자기 회귀적 생성(Autoregressive generation)이라고 합니다. 결국 짧은 답변이든 긴 답변이든 한 토큰씩 순차적으로 생성됩니다.

추론 비용은 AI 서비스 운영에서 매우 중요한 요소입니다. 학습은 모델 당 수십억 달러가 들지만 한 번만 수행합니다. 반면 추론은 사용자 요청이 있을 때마다 발생하므로, 서비스가 성장할수록 추론 비용이 전체 운영 비용의 대부분을 차지하게 됩니다. 그래서 AI 기업들은 추론 효율화에 많은 투자를 하고 있으며, 모델 경량화, 양자화(Quantization), 배치 처리 최적화 등의 기법을 연구합니다.

추론을 어디서 실행하느냐에 따라 클라우드 추론과 온디바이스 추론으로 구분합니다. 클라우드 추론은 OpenAI, Anthropic, Google 같은 회사의 서버에서 실행되며 강력한 GPU를 사용해 빠르고 정확합니다. 온디바이스 추론은 스마트폰이나 PC에서 직접 모델을 실행하는 방식으로, 인터넷 연결 없이도 작동하고 개인 데이터가 외부로 전송되지 않는 장점이 있습니다. 애플의 Apple Intelligence, 구글의 Gemini Nano 등이 온디바이스 추론의 대표 사례입니다.

최근 주목받는 개념 중 추론 시간 컴퓨팅(Test-time compute 또는 Inference-time compute)이 있습니다. 이는 학습 단계가 아닌 추론 단계에서 더 많은 계산 자원을 투입해 응답 품질을 높이는 방식입니다. OpenAI의 GPT-5.4, Anthropic의 Claude Opus 4.7과 Sonnet 4.6의 extended thinking 기능이 대표적입니다. 모델이 답변을 생성하기 전에 내부적으로 여러 단계의 사고 과정을 거치며, 덕분에 복잡한 수학 문제나 코딩 과제에서 성능이 크게 향상됩니다.

추론 최적화 기법 중 배치 추론(Batch inference)은 여러 요청을 묶어서 한 번에 처리하는 방법입니다. GPU는 병렬 처리에 강하기 때문에, 개별 요청을 순차 처리하는 것보다 여러 요청을 동시에 묶어 처리할 때 효율이 크게 높아집니다. 실시간 응답이 필요한 챗봇보다는 대량의 문서를 분류하거나 번역하는 오프라인 작업에 주로 사용됩니다.

AI를 실무에 적용할 때 추론 개념을 이해하면 몇 가지 실질적인 판단을 내리는 데 도움이 됩니다. API 사용 비용을 예측하고 싶다면 입력 토큰과 출력 토큰 수를 추정하면 됩니다. 응답 속도를 개선하고 싶다면 TTFT와 TPS 지표를 기준으로 모델이나 서비스를 비교할 수 있습니다. 또한 데이터 보안이 중요한 작업이라면 클라우드 추론 대신 온디바이스 또는 프라이빗 서버 추론을 고려할 수 있습니다.

추론 인프라 시장도 빠르게 성장하고 있습니다. AWS, Google Cloud, Azure 같은 클라우드 플랫폼은 각자의 AI 추론 최적화 서비스를 제공합니다. 스타트업 중에서는 Groq, Together AI, Fireworks AI 같은 추론 특화 플랫폼이 등장해 더 빠르고 저렴한 추론 서비스를 경쟁적으로 선보이고 있습니다. 추론 속도와 비용 효율성은 앞으로 AI 서비스 경쟁력을 결정하는 핵심 요소 중 하나가 될 것입니다. 사용자 입장에서는 동일한 모델이라도 어느 추론 플랫폼을 사용하느냐에 따라 체감 속도와 비용이 크게 달라질 수 있습니다.

glossary에서 개념을 잡고 관련 글로 넘어가면 실제 문맥 이해가 쉬워집니다.

뉴스레터

Google Antigravity 리뷰: 에이전트 우선 개발 도구, 실제로 써보니

Google이 2025년 11월 출시한 Antigravity는 에디터·터미널·브라우저를 동시에 제어하는 에이전트 우선 IDE입니다. Gemini 3.1 Pro 기반으로 SWE-bench 76.2%를 달성했고, 2026년 3월에는 AI Studio에 Firebase까지 통합됐습니다. 가격 정책, 실제 성능, 경쟁 제품과의 차이를 정리했습니다.

뉴스레터

Claude Opus 4.7이 오늘 공개됐습니다 — Opus 4.6 대비 성능 3배와 적응형 사고

앤트로픽이 2026년 4월 16일 Claude Opus 4.7을 공개했습니다. Rakuten-SWE-Bench 기준 Opus 4.6 대비 3배 많은 프로덕션 태스크를 해결하고, CursorBench 70%, 컴퓨터 사용 98.5%를 기록했습니다. 이번 주 AI 업계의 가장 큰 소식 하나를 자세히 정리했습니다.

가이드

프롬프팅 완전 가이드 (2026년 3월 기준)

Zero-shot부터 Chain-of-Thought, 역할 부여, 구조화 출력까지 — 2026년 현재 검증된 LLM 프롬프팅 기법을 모두 정리했습니다. Claude, GPT, Gemini에 즉시 적용할 수 있는 실전 템플릿과 좋은/나쁜 예시를 함께 담았습니다.