시맨틱 검색

중급

시맨틱 검색는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 중급 난이도로 시맨틱 검색의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

시맨틱 검색를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

시맨틱 검색(Semantic Search)은 단어의 정확한 일치가 아닌 의미(meaning)를 기반으로 관련 문서를 찾는 검색 방식입니다. 텍스트를 벡터(숫자 배열)로 변환하는 임베딩 모델과 벡터 유사도를 계산하는 벡터 데이터베이스를 결합해 구현합니다.

기존 키워드 검색은 '자동차 수리'를 검색하면 해당 단어가 포함된 문서만 찾습니다. 시맨틱 검색은 '차량 정비', '엔진 고장 수리'처럼 표현이 달라도 의미가 가까운 문서를 함께 찾아냅니다. RAG 시스템의 검색 단계에서 핵심 역할을 하며, Pinecone, Weaviate, Qdrant 같은 벡터 DB가 이를 지원합니다.

실제 활용 사례로는 사내 문서 검색, 법률 판례 검색, 쇼핑몰 상품 추천 등이 있습니다. 사용자가 '비싸지 않은 노트북'을 검색하면 '저렴한 노트북', '예산형 노트북' 상품도 함께 노출됩니다. OpenAI의 text-embedding-3-large와 같은 임베딩 모델이 텍스트를 벡터로 변환하는 역할을 담당합니다.

ℹ️쉽게 말하면

도서관에서 '강아지'를 검색했을 때 '강아지'라는 단어가 없어도 '반려견', '푸들 키우기' 책을 함께 찾아주는 것입니다. 키워드가 아닌 의도를 이해합니다.

시맨틱 검색이 동작하는 원리를 단계별로 살펴보면 다음과 같습니다. 첫 번째 단계는 인덱싱입니다. 검색 대상 문서 전체를 임베딩 모델에 통과시켜 각 문서를 고차원 벡터로 변환한 뒤 벡터 데이터베이스에 저장합니다. 두 번째 단계는 쿼리 변환입니다. 사용자가 검색어를 입력하면 동일한 임베딩 모델로 쿼리도 벡터로 변환합니다. 세 번째 단계는 유사도 계산입니다. 코사인 유사도(Cosine Similarity) 또는 내적(Dot Product) 방식으로 쿼리 벡터와 각 문서 벡터 사이의 거리를 계산합니다. 거리가 가까울수록 의미적으로 유사한 문서입니다.

시맨틱 검색은 여러 분야에서 기존 키워드 검색의 한계를 극복합니다. 고객 지원 챗봇에서는 사용자가 '환불 어떻게 해요?'라고 질문해도 '반품 및 환불 정책'이라는 제목의 문서를 정확히 찾아냅니다. 코드 검색 도구에서는 '두 숫자를 더하는 함수'라는 설명으로 sum, add, plus 같은 다양한 함수명을 가진 코드를 동시에 찾을 수 있습니다. 의료 분야에서는 환자가 구어체로 증상을 설명해도 관련 의학 논문이나 진료 지침을 연결할 수 있습니다.

키워드 검색과 시맨틱 검색을 결합한 하이브리드 검색(Hybrid Search)도 널리 사용됩니다. 전통적인 BM25 알고리즘으로 키워드 매칭을 먼저 수행하고, 시맨틱 검색 결과와 가중 합산하는 방식입니다. 고유명사나 제품 코드처럼 정확한 일치가 중요한 경우에는 키워드 검색이 유리하고, 문장 의도나 개념 이해가 필요한 경우에는 시맨틱 검색이 유리합니다. 하이브리드 방식은 양쪽의 장점을 모두 가져갑니다.

흔한 오해 중 하나는 시맨틱 검색이 항상 키워드 검색보다 우수하다는 생각입니다. 하지만 모델이 학습하지 않은 신조어나 전문 도메인 용어에서는 키워드 검색이 더 정확한 경우가 많습니다. 또한 임베딩 모델 선택이 결과 품질에 직접 영향을 줍니다. 한국어 문서 검색에는 한국어에 최적화된 임베딩 모델을 사용하는 것이 영어 중심 모델보다 훨씬 좋은 결과를 냅니다.

시맨틱 검색은 RAG(Retrieval-Augmented Generation) 파이프라인의 핵심 구성 요소입니다. LLM이 질문에 답할 때 관련 문서를 먼저 검색해서 컨텍스트로 제공하는 구조인데, 이 검색 품질이 전체 RAG 시스템의 답변 품질을 좌우합니다. 검색이 잘못된 문서를 가져오면 LLM이 아무리 뛰어나도 잘못된 답변을 생성할 수밖에 없습니다. 결국 RAG를 구축할 때 시맨틱 검색 품질에 가장 먼저 투자해야 하는 이유가 여기에 있습니다.

시맨틱 검색 시스템을 구축할 때 청킹(chunking) 전략도 중요합니다. 문서를 너무 크게 쪼개면 검색 정밀도가 떨어지고, 너무 작게 쪼개면 문맥이 손실됩니다. 일반적으로 512~1024 토큰 단위로 청킹하고, 청크 간 20~50 토큰의 오버랩(overlap)을 두어 문맥 단절을 방지합니다. 문서의 성격에 따라 문단 단위, 섹션 단위, 고정 길이 단위 중 최적의 전략을 선택해야 합니다.

시맨틱 검색의 성능을 측정하는 주요 지표로는 Recall@K(상위 K개 결과 안에 정답이 포함된 비율)와 MRR(Mean Reciprocal Rank, 정답이 처음 등장하는 순위의 역수 평균)이 있습니다. 실제 서비스에서는 사용자가 검색 결과를 클릭하는 비율(CTR)과 검색 후 원하는 정보를 찾았는지를 나타내는 만족도 지표도 함께 모니터링합니다. 검색 품질 개선은 임베딩 모델 교체, 청킹 전략 조정, 리랭킹(reranking) 모델 추가 순으로 단계적으로 접근하는 것이 효율적입니다.