모델 평가
중급모델 평가는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 중급 난이도로 모델 평가의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.
모델 평가를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.
모델 평가는 AI 모델의 성능을 정량적·정성적으로 측정하는 과정입니다. 모델 개발 중간, 배포 전, 배포 후 모니터링 단계에서 반복적으로 수행하여 모델이 의도대로 동작하는지 검증합니다.
주요 평가 방법으로는 벤치마크(MMLU, HumanEval, GPQA 등 표준화된 테스트셋), 인간 평가(Human Eval)(전문가가 직접 응답 품질 채점), A/B 테스트(두 모델을 사용자에게 직접 비교), LLM-as-Judge(강력한 AI가 다른 AI를 평가)가 있습니다.
모델 평가의 어려운 점은 벤치마크 오염(Contamination) 문제입니다. 최신 대형 모델들이 인터넷 상의 벤치마크 문제를 학습 데이터에 포함했을 가능성이 있어 점수 신뢰도가 낮아집니다. GPT, Gemini 등 최신 모델들의 공개 벤치마크 비교는 이 문제를 항상 고려해야 합니다.
AI의 성적표를 매기는 과정입니다. 수능 점수처럼 객관적인 벤치마크가 있지만, 실제로 중요한 것은 실전에서 얼마나 유용한가입니다. 점수가 높아도 실제 업무에서 별로인 모델도 있습니다.
벤치마크의 종류는 다양합니다. MMLU(Massive Multitask Language Understanding)는 수학, 법학, 의학, 역사 등 57개 과목의 대학원 수준 문제를 풀어 지식 폭을 측정합니다. HumanEval은 Python 코딩 문제를 풀고 실제로 실행해 통과율을 측정합니다. GPQA(Graduate-Level Google-Proof Q&A)는 박사급 전문 지식이 필요한 문제로 구성되어 최상위 모델들의 차이를 가리는 데 쓰입니다.
정량 지표 외에 정성 평가도 중요합니다. 사람이 직접 AI 응답을 읽고 유용성, 정확성, 안전성, 지시 따르기 능력 등을 평가하는 방식입니다. OpenAI, Anthropic, Google 등 주요 AI 기업들은 수천 명의 인간 평가자를 투입해 모델을 사람의 선호에 맞게 조정하는 RLHF(인간 피드백을 통한 강화학습) 과정에서 이 방식을 광범위하게 사용합니다.
LLM-as-Judge 방식은 최근 빠르게 확산되고 있습니다. GPT-4 수준의 강력한 모델에게 다른 모델의 응답을 평가하게 하면 비용과 시간을 절약하면서도 인간 평가자와 높은 일치도를 보입니다. 하지만 평가 모델 자체의 편향이 결과에 영향을 미칠 수 있고, 자사 모델에 유리하게 평가하는 self-serving bias 문제도 보고되어 있습니다.
실무에서 모델 평가를 설계할 때는 목적에 맞는 평가 항목을 직접 구성하는 것이 중요합니다. 범용 벤치마크가 높다고 해서 내 서비스에 적합한 모델이라는 보장은 없습니다. 예를 들어 고객 서비스 챗봇을 만든다면, 실제 고객 문의 데이터를 기반으로 응답 정확성, 공손함, 해결률 등을 직접 측정하는 도메인 특화 평가를 설계해야 합니다.
모델 평가는 안전성 측면에서도 필수입니다. 유해 콘텐츠 생성, 환각(Hallucination), 민감한 정보 노출 등의 위험을 측정하는 레드팀 테스트가 포함됩니다. Anthropic의 Constitutional AI 방식이나 OpenAI의 Safety Evaluations처럼, 주요 AI 기업들은 모델 출시 전 광범위한 안전성 평가를 의무화하고 있습니다. 결국 좋은 모델 평가 체계는 AI 서비스의 품질과 신뢰성을 유지하는 핵심 기반입니다.
환각(Hallucination)은 모델 평가에서 빠질 수 없는 핵심 항목입니다. 환각이란 AI 모델이 실제로 존재하지 않는 사실을 자신 있게 주장하는 현상입니다. 예를 들어 존재하지 않는 논문 출처를 정확한 것처럼 제시하거나, 잘못된 날짜와 수치를 단정적으로 말하는 경우입니다. 환각 발생률을 측정하기 위해 사실 확인이 가능한 질문 세트를 구성해 AI 응답을 검증하는 방식이 많이 사용됩니다.
모델 평가의 또 다른 중요한 축은 속도와 비용입니다. 아무리 정확한 모델이라도 응답 속도가 너무 느리거나 API 비용이 너무 높으면 실제 서비스에 적용하기 어렵습니다. TTFT(Time To First Token, 첫 토큰 응답 시간), TPS(초당 토큰 생성 속도), 컨텍스트 윈도우 크기, 입출력 토큰당 비용 등이 함께 평가되어야 합니다. 최신 모델들은 성능 외에도 효율성 개선을 중요한 경쟁 요소로 삼고 있습니다.
모델 평가 결과를 읽을 때는 숫자만 보지 않는 것이 중요합니다. 같은 MMLU 점수라도 어떤 문제 유형에서 강하고 약한지, 어떤 언어로 평가했는지, 멀티턴 대화에서의 성능은 어떤지에 따라 실제 활용 적합성이 달라집니다. 공개 벤치마크 순위표를 참고할 때는 평가 방법론과 날짜도 함께 확인해야 합니다. 모델 업데이트가 잦은 분야인 만큼 6개월 이상 된 비교 자료는 현재 상황을 반영하지 못할 수 있습니다.
최근에는 에이전트 평가(Agentic Evaluation)가 새로운 중요 주제로 떠오르고 있습니다. 단순히 질문에 대한 답변 품질을 측정하는 것이 아니라, 실제 작업 완료율을 측정합니다. 예를 들어 웹 브라우저를 조작해 예약을 완료하거나, 코드베이스를 분석해 버그를 수정하는 복잡한 멀티스텝 작업을 얼마나 성공적으로 수행하는지를 봅니다. SWE-bench(소프트웨어 엔지니어링 벤치마크)처럼 실제 GitHub 이슈를 해결하는 능력을 측정하는 새로운 평가 방식들이 주목받고 있습니다.
