트랜스포머

중급

트랜스포머는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 중급 난이도로 트랜스포머의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

트랜스포머를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

트랜스포머(Transformer)는 2017년 구글 연구팀이 논문 "Attention Is All You Need"에서 발표한 딥러닝 아키텍처입니다. 기존 RNN·LSTM 계열 모델의 순차 처리 방식을 대체하여, 입력 전체를 동시에 처리할 수 있는 구조로 설계되었으며, 현대 AI의 사실상 표준 기반 아키텍처로 자리잡았습니다.

트랜스포머의 핵심 메커니즘은 셀프 어텐션(Self-Attention)입니다. 문장 안의 각 단어가 다른 모든 단어와의 관계를 동시에 계산하여, 단어의 의미를 문맥 전체를 고려해 파악합니다. 또한 순서대로 처리하지 않고 전체를 병렬로 처리하기 때문에 학습 속도가 훨씬 빠릅니다.

트랜스포머 아키텍처는 현재 거의 모든 대형 언어 모델(LLM)의 기반입니다. OpenAI의 GPT 시리즈, Google의 BERT 및 Gemini, Anthropic의 Claude 등이 모두 트랜스포머 구조를 채택하고 있습니다.

ℹ️쉽게 말하면

도서관에서 책을 읽을 때, 앞부터 차례대로 읽는 대신 전체 페이지를 동시에 펼쳐 놓고 서로 관련 있는 내용끼리 연결선을 그어 이해하는 방식과 같습니다. 트랜스포머는 이 '동시에 전체를 보는 능력' 덕분에 문맥을 훨씬 정확하게 파악합니다.

트랜스포머가 등장하기 전의 언어 모델은 RNN(순환 신경망)과 LSTM(장단기 기억망) 구조에 의존했습니다. 이 구조들은 단어를 앞에서부터 순서대로 처리하기 때문에, 문장이 길어질수록 앞부분의 정보가 희미해지는 장기 의존성 문제가 있었습니다. 예를 들어 100단어짜리 문장에서 첫 번째 단어가 마지막 단어의 의미에 영향을 미친다면, RNN은 이 관계를 정확하게 유지하기가 어려웠습니다. 트랜스포머는 셀프 어텐션 덕분에 거리에 상관없이 모든 단어 쌍의 관계를 직접 계산하여 이 문제를 해결합니다.

트랜스포머의 구조는 크게 인코더와 디코더로 나뉩니다. 인코더는 입력 텍스트를 의미 있는 벡터 표현으로 변환하고, 디코더는 이 표현을 바탕으로 출력 텍스트를 생성합니다. 번역이나 요약 같은 작업에는 인코더-디코더 구조 전체가 사용됩니다. 반면 GPT 계열의 생성형 모델은 디코더만 사용하고, BERT 같은 텍스트 이해 모델은 인코더만 사용합니다. 각 구조의 선택은 수행할 작업의 특성에 따라 결정됩니다.

멀티헤드 어텐션(Multi-Head Attention)은 트랜스포머를 더 강력하게 만드는 요소입니다. 단일 어텐션이 하나의 관점에서 단어 간 관계를 보는 반면, 멀티헤드 어텐션은 여러 개의 어텐션 헤드가 각자 다른 관점에서 동시에 관계를 분석합니다. 예를 들어 하나의 헤드는 문법적 의존 관계를 파악하고, 다른 헤드는 의미적 유사성을 포착하며, 또 다른 헤드는 지시 관계(대명사가 무엇을 가리키는지)를 추적할 수 있습니다. 이처럼 다양한 관점을 동시에 처리하는 능력이 트랜스포머의 뛰어난 언어 이해력을 만들어냅니다.

트랜스포머는 텍스트를 넘어 이미지, 오디오, 동영상, 단백질 구조 예측 등 다양한 분야로 확장되고 있습니다. 이미지 처리에서는 Vision Transformer(ViT)가 이미지를 패치로 나눠 트랜스포머에 입력하는 방식으로 뛰어난 성능을 보입니다. Google의 AlphaFold 2는 트랜스포머를 사용해 단백질 구조를 예측하고, 음악 생성, 코드 자동완성, 영상 생성 등에도 트랜스포머 기반 모델이 핵심 역할을 합니다. 이처럼 트랜스포머는 언어 모델을 위해 설계되었지만 사실상 모든 시퀀스 데이터 처리의 범용 아키텍처로 자리 잡았습니다.

트랜스포머의 단점도 존재합니다. 셀프 어텐션은 입력 길이의 제곱에 비례해 계산량이 늘어나는 구조적 한계가 있습니다. 100개 토큰이면 1만 번의 관계 계산이 필요하고, 10만 개 토큰이면 100억 번이 필요합니다. 이 한계를 극복하기 위해 Sliding Window Attention, Flash Attention, Sparse Attention 같은 효율적 어텐션 기법들이 개발되었고, 덕분에 Claude의 200,000 토큰 컨텍스트 같은 긴 컨텍스트 처리가 실용적으로 가능해졌습니다.

트랜스포머는 현대 AI 발전의 가장 중요한 토대입니다. ChatGPT, Claude, Gemini, Llama 등 오늘날 사람들이 사용하는 거의 모든 AI 서비스가 트랜스포머 위에 구축되어 있습니다. AI를 공부하거나 활용하려는 사람이라면 트랜스포머의 기본 원리를 이해하는 것이 전체 AI 생태계를 파악하는 출발점이 됩니다.

포지셔널 인코딩(Positional Encoding)도 트랜스포머의 중요한 구성 요소입니다. 셀프 어텐션은 단어 간 관계를 계산할 때 순서 정보를 자동으로 포함하지 않습니다. 하지만 "나는 밥을 먹었다"와 "밥은 나를 먹었다"는 단어 구성이 같아도 의미가 완전히 다릅니다. 포지셔널 인코딩은 각 토큰의 위치 정보를 벡터에 더해 모델이 단어의 순서를 인식할 수 있게 합니다. 초기에는 사인파 기반의 고정 인코딩이 사용되었고, 최근에는 RoPE(Rotary Position Embedding) 같은 학습 가능한 위치 인코딩 방식이 긴 컨텍스트 처리 성능을 높이는 데 널리 사용됩니다.