스트리밍

입문

스트리밍는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 입문 난이도로 스트리밍의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

스트리밍를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

스트리밍(Streaming)은 LLM이 응답 전체를 생성한 후 한 번에 전송하는 대신, 토큰이 생성되는 즉시 실시간으로 전송하는 방식입니다. ChatGPT에서 답변이 타이핑되듯 한 글자씩 나타나는 것이 바로 스트리밍입니다.

스트리밍의 핵심 가치는 체감 속도 향상입니다. 2000토큰 응답을 생성하는 데 10초가 걸린다면, 비스트리밍 방식은 10초 동안 빈 화면만 보여주지만 스트리밍은 첫 토큰이 0.5초 만에 나타납니다. 기술적으로는 HTTP SSE(Server-Sent Events) 또는 WebSocket을 통해 구현되며, API에서는 stream=True 옵션으로 활성화합니다.

Claude API에서 스트리밍을 사용하면 MessageStreamEvent 타입의 이벤트를 순서대로 받습니다. 긴 글 작성, 코드 생성, 번역 등 응답이 긴 작업일수록 스트리밍의 사용자 경험 개선 효과가 큽니다. 반면 구조화된 출력(JSON)이 필요한 경우에는 스트리밍 없이 완성된 응답을 받는 것이 더 안전합니다.

ℹ️쉽게 말하면

피자를 한 판 다 구워서 가져오는 대신, 조각씩 구워지는 대로 바로 전달하는 것입니다. 전체 완성까지 기다리지 않아도 됩니다.

스트리밍이 사용자 경험에 미치는 영향은 심리학적으로도 설명됩니다. 연구에 따르면 사용자는 응답 시작까지의 대기 시간(Time to First Token, TTFT)을 전체 응답 완료 시간보다 더 민감하게 느낍니다. 화면에 아무것도 없는 3초와 내용이 흘러나오기 시작하는 3초는 체감 속도가 전혀 다릅니다. 덕분에 스트리밍만 적용해도 별다른 성능 최적화 없이 앱이 빠르게 느껴지는 효과를 얻을 수 있습니다.

스트리밍 구현 방식은 플랫폼마다 조금씩 다릅니다. OpenAI Python SDK에서는 client.chat.completions.create() 호출 시 stream=True를 설정하고 응답 객체를 반복문으로 순회합니다. Anthropic SDK에서는 client.messages.stream() 메서드를 사용하거나 with 컨텍스트 매니저로 스트림을 관리합니다. 프론트엔드에서는 fetch API의 ReadableStream이나 EventSource를 사용하여 서버에서 오는 데이터를 실시간으로 처리합니다.

스트리밍을 사용할 때 주의해야 할 점도 있습니다. 네트워크 연결이 불안정하면 중간에 스트림이 끊길 수 있으므로 오류 처리와 재연결 로직이 필요합니다. 또한 스트리밍 중에는 전체 응답 길이를 미리 알 수 없으므로 로딩 표시를 다르게 구성해야 합니다. JSON 스키마를 강제하는 구조화된 출력이 필요한 경우에는 응답 전체가 완성되어야 파싱이 가능하므로 스트리밍과 함께 사용하기 어렵습니다.

스트리밍은 챗봇 외에도 다양한 곳에 사용됩니다. 코드 에디터의 AI 자동완성 기능에서는 코드 제안이 실시간으로 타이핑되듯 나타납니다. 문서 작성 도구에서는 긴 글을 생성할 때 사용자가 초반부를 읽으면서 나머지가 생성되는 구조를 만들 수 있습니다. 실시간 번역 서비스에서는 원문이 입력되는 동시에 번역이 흘러나오도록 구성할 수 있습니다.

스트리밍은 LLM 응용 개발에서 거의 필수 기능으로 자리잡았습니다. 사용자들은 이미 ChatGPT와 Claude 같은 서비스를 통해 스트리밍 응답에 익숙해져 있기 때문에, 스트리밍이 없는 AI 앱은 느리고 낡은 느낌을 줄 수 있습니다. 결국 AI 기반 서비스를 개발할 때 스트리밍 지원은 선택이 아닌 기본값으로 설계하는 것이 좋습니다.

Next.js나 React 기반 앱에서 스트리밍을 구현하는 방법을 간단히 살펴보면 다음과 같습니다. 서버 사이드에서는 AI SDK의 streamText 함수를 사용해 스트림 응답을 생성합니다. 클라이언트 사이드에서는 useChat 또는 useCompletion 훅으로 스트림 데이터를 받아 상태를 실시간 업데이트합니다. Vercel AI SDK는 OpenAI, Anthropic, Google 등 주요 AI 제공자의 스트리밍을 동일한 인터페이스로 처리할 수 있어 프레임워크 레이어에서 스트리밍 구현을 크게 단순화합니다.

스트리밍 응답을 처리할 때 토큰 단위로 UI를 업데이트하면 너무 잦은 리렌더링이 발생할 수 있습니다. 이를 방지하기 위해 특정 글자 수나 시간 간격으로 버퍼링한 뒤 업데이트하는 방식을 사용하기도 합니다. 마크다운이나 코드 블록처럼 특정 구분자가 나타날 때까지 기다렸다가 렌더링하는 전략도 자주 사용됩니다. 스트리밍 UX는 단순히 데이터를 흘려보내는 것을 넘어 언제, 어떻게 화면에 표시하느냐까지 함께 설계해야 완성도 높은 사용자 경험이 됩니다.

AI 에이전트 시스템에서도 스트리밍은 중요한 역할을 합니다. 에이전트가 여러 단계를 거쳐 작업할 때 각 단계의 생각 과정과 중간 결과를 실시간으로 사용자에게 보여줄 수 있습니다. 이렇게 하면 에이전트가 무엇을 하고 있는지 사용자가 파악할 수 있어 긴 작업 중 발생하는 불안감을 줄일 수 있습니다. 단계별 진행 상황 표시, 도구 호출 결과 미리보기, 최종 답변 스트리밍을 조합하면 에이전트 앱의 사용자 경험이 크게 향상됩니다.