LLM (대규모 언어 모델)
입문LLM (대규모 언어 모델)는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 입문 난이도로 LLM (대규모 언어 모델)의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.
LLM (대규모 언어 모델)를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락, 관련 글 3개를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.
LLM(Large Language Model, 대규모 언어 모델)은 방대한 양의 텍스트 데이터를 학습한 인공지능 모델입니다. GPT-5.4, Claude, Gemini 등 현재 널리 쓰이는 AI 챗봇과 코딩 도우미가 모두 LLM을 기반으로 만들어졌습니다.
LLM은 인터넷 문서, 책, 코드 등 수천억 개의 단어를 학습하면서 다음에 올 가장 자연스러운 토큰(단어 조각)을 예측하는 방식으로 동작합니다. 이 단순한 원리를 수천억 개의 파라미터 규모로 확장하면 문장 이해, 추론, 요약, 번역, 코드 작성까지 가능한 범용 능력이 생깁니다.
실제 활용 범위는 매우 넓습니다. 이메일 초안 작성, Python·JavaScript 코드 생성, 긴 문서 요약, 영한 번역, 고객 문의 자동 응답 등 텍스트를 다루는 거의 모든 영역에서 씁니다. 개발자들은 API를 통해 LLM을 자체 서비스에 연동하거나, Claude Code·GitHub Copilot 같은 도구로 코딩 생산성을 높이기도 합니다.
인터넷에 존재하는 글을 수천억 개 읽고 자란 '텍스트 전문가'입니다. 어떤 문장 다음에 무슨 말이 자연스러운지 극도로 잘 예측하기 때문에, 질문에 답하고 코드를 짜고 글을 요약하는 일을 사람처럼 처리할 수 있습니다.
LLM이 어떻게 이런 능력을 갖추는지 학습 과정을 살펴보면 이해가 쉽습니다. 첫 번째 단계는 사전 학습(Pre-training)입니다. 수조 개의 토큰으로 이루어진 텍스트에서 다음 토큰을 예측하는 작업을 수백만 번 반복합니다. 이 과정에서 언어의 패턴, 지식, 추론 능력이 파라미터에 축적됩니다. 두 번째 단계는 지시 따르기 학습(Instruction Fine-tuning)으로, 사람이 작성한 질문-답변 쌍으로 추가 학습해 대화에 적합하게 만듭니다. 세 번째 단계는 RLHF(인간 피드백 강화학습)로, 사람이 여러 답변 중 더 나은 것을 선택해주면 그 방향으로 계속 개선합니다.
LLM의 규모는 파라미터 수로 나타냅니다. 초기 GPT-2는 15억 개, GPT-3는 1,750억 개 파라미터였습니다. 현재 최고 성능 모델들은 수천억에서 수조 개 규모로 알려져 있습니다. 하지만 규모만이 전부는 아닙니다. 학습 데이터의 품질, 학습 방법, 모델 아키텍처도 성능에 중요한 영향을 미칩니다. 최근에는 작은 모델도 좋은 데이터와 학습 기법으로 훨씬 큰 모델과 비슷한 성능을 내는 사례가 늘고 있습니다.
LLM이 잘 못하는 것도 알아두면 좋습니다. 정확한 수학 계산, 실시간 정보 검색, 특정 날짜 이후의 사건 파악은 기본 LLM만으로는 어렵습니다. 그래서 등장한 것이 도구 사용(Tool Use)입니다. LLM에 계산기, 웹 검색, 코드 실행 환경 같은 외부 도구를 연결해 약점을 보완합니다. 또한 LLM은 사실을 지어내는 환각(Hallucination) 문제도 있어서, 중요한 정보는 반드시 원본 자료로 검증해야 합니다.
클라우드 LLM과 로컬 LLM의 차이도 실용적으로 중요합니다. Claude, GPT-5.4 같은 클라우드 LLM은 API를 통해 접근하며 강력한 성능을 제공하지만 사용 비용이 발생하고 데이터가 외부로 전송됩니다. 반면 Llama, Mistral, Qwen 같은 오픈소스 모델은 로컬에서 직접 실행할 수 있어 비용과 프라이버시 측면에서 유리합니다. Ollama 같은 도구를 사용하면 일반 노트북에서도 소형 LLM을 손쉽게 실행할 수 있습니다.
비즈니스 관점에서 LLM 도입을 고려할 때는 몇 가지 판단 기준이 있습니다. 작업 유형이 자연어를 다루는 일인지, 반복 작업에 드는 시간 비용이 API 비용보다 큰지, 결과물의 품질이 사람의 검토 없이도 충분한지를 먼저 확인해야 합니다. 특히 법적·의료적 판단이나 중요 데이터를 다루는 업무에서는 LLM 출력을 항상 전문가가 검토하는 절차를 갖추는 것이 중요합니다.
LLM 성능을 평가하는 기준도 다양합니다. MMLU(다양한 학문 영역 지식 테스트), HumanEval(코드 생성 능력), HellaSwag(상식 추론) 같은 벤치마크가 대표적입니다. 하지만 벤치마크 점수만으로 실제 업무 적합성을 판단하기는 어렵습니다. 실제 사용 환경에서의 응답 속도, 긴 문서 처리 품질, 특정 언어 지원 수준, 도구 사용 정확도까지 직접 테스트해보는 것이 더 신뢰할 수 있는 평가 방법입니다.
관련 글
아래 글들은 LLM (대규모 언어 모델)가 실제 문맥에서 어떻게 쓰이는지 보여주는 참고 자료입니다. glossary에서 개념을 잡고 관련 글로 넘어가면 이해가 훨씬 쉬워집니다.
