Stable Diffusion

중급

Stable Diffusion는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 중급 난이도로 Stable Diffusion의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

Stable Diffusion를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

Stable Diffusion은 Stability AI가 개발한 오픈소스 이미지 생성 AI 모델입니다. 텍스트 프롬프트를 입력하면 그에 맞는 이미지를 생성하며, 모델 가중치가 공개되어 있어 로컬 PC에서 직접 실행할 수 있습니다.

Stable Diffusion은 디퓨전(Diffusion) 모델을 기반으로 합니다. 노이즈가 섞인 이미지에서 점진적으로 노이즈를 제거하며 원하는 이미지를 복원하는 방식입니다. 텍스트 조건을 통해 생성 방향을 안내하므로 프롬프트 품질이 결과물에 큰 영향을 줍니다.

대표적인 인터페이스로 ComfyUI와 AUTOMATIC1111 WebUI가 있습니다. Civitai 같은 커뮤니티에서 다양한 파인튜닝 모델(LoRA, Checkpoint)을 내려받아 특정 화풍이나 스타일로 이미지를 생성할 수 있습니다. GPU가 있는 PC라면 API 비용 없이 무제한 생성이 가능합니다.

ℹ️쉽게 말하면

내 컴퓨터에 설치해서 쓰는 AI 이미지 생성기입니다. Midjourney나 DALL-E처럼 클라우드 서비스가 아니라 내 GPU로 직접 돌리기 때문에, 한 번 설치하면 비용 없이 원하는 만큼 이미지를 만들 수 있습니다.

Stable Diffusion의 기술 구조는 크게 세 부분으로 나뉩니다. 첫 번째는 텍스트 인코더로, CLIP 모델이 프롬프트 텍스트를 AI가 이해하는 임베딩 벡터로 변환합니다. 두 번째는 U-Net으로, 노이즈가 섞인 잠재 공간(Latent Space)에서 점진적으로 노이즈를 제거하며 이미지를 복원합니다. 세 번째는 VAE(Variational Autoencoder)로, 잠재 공간의 압축된 표현을 실제 픽셀 이미지로 디코딩합니다. 이 세 구성요소가 협력하여 프롬프트에 맞는 이미지를 생성합니다.

Stable Diffusion은 여러 버전으로 발전해 왔습니다. SD 1.5는 가장 널리 사용된 기반 모델로 커뮤니티 생태계가 가장 풍부합니다. SD XL(SDXL)은 더 높은 해상도와 사실적인 이미지 생성을 지원합니다. SD 3.0과 그 이후 버전들은 텍스트 렌더링과 구도 이해를 개선했습니다. 각 버전마다 호환되는 LoRA와 Checkpoint가 다르므로 사용 전 버전 확인이 필요합니다.

ComfyUI는 노드 기반 워크플로우를 제공하여 이미지 생성 파이프라인을 시각적으로 구성할 수 있습니다. 복잡한 이미지 처리 과정을 블록을 연결하듯 조합할 수 있어 고급 사용자들이 선호합니다. AUTOMATIC1111 WebUI는 보다 직관적인 인터페이스를 제공하며 초보자도 빠르게 시작할 수 있습니다. 두 인터페이스 모두 ControlNet, img2img, inpainting 같은 고급 기능을 지원합니다.

프롬프트 작성 방법도 Stable Diffusion 결과물에 큰 영향을 줍니다. 긍정 프롬프트(positive prompt)에는 원하는 요소를 나열하고, 부정 프롬프트(negative prompt)에는 원하지 않는 요소를 나열합니다. 예를 들어 긍정 프롬프트에 'masterpiece, best quality, highly detailed, 4K'를 추가하면 전반적인 품질이 올라갑니다. 부정 프롬프트에 'ugly, blurry, low quality, deformed'를 넣으면 결함 있는 이미지 생성 빈도를 줄일 수 있습니다.

오픈소스라는 특성 덕분에 Stable Diffusion은 다양한 분야에서 사용됩니다. 게임 개발사에서는 컨셉 아트 초안 생성에 활용하고, 패션 업계에서는 의상 디자인 시안 제작에 사용합니다. 건축 분야에서는 인테리어 시각화에, 마케팅에서는 소셜 미디어 이미지 제작에 사용합니다. 상업적 이용 가능 여부는 사용하는 체크포인트 모델의 라이선스에 따라 달라지므로 반드시 확인해야 합니다.

Stable Diffusion과 Midjourney, DALL-E를 비교하면 각각 뚜렷한 차이가 있습니다. Midjourney는 설치 없이 Discord에서 바로 사용할 수 있고 미적 품질이 뛰어나지만 커스터마이징이 제한적이고 월정액 비용이 발생합니다. DALL-E는 ChatGPT와 통합되어 접근성이 높지만 생성 횟수 제한과 비용이 있습니다. Stable Diffusion은 초기 설치가 필요하고 하드웨어 요구사항이 있지만, 한 번 설치하면 무제한 생성이 가능하고 모델 커스터마이징 자유도가 가장 높습니다.

ControlNet은 Stable Diffusion의 활용 범위를 크게 확장하는 확장 모듈입니다. 참조 이미지의 포즈, 윤곽선, 깊이 맵, 색상 팔레트 등을 추출하여 이미지 생성 과정에 조건으로 입력할 수 있습니다. 예를 들어 사람의 포즈를 참조 이미지로 주면 다른 스타일로 동일한 포즈를 가진 이미지를 생성할 수 있습니다. 이 기능 덕분에 Stable Diffusion은 단순한 텍스트-투-이미지 생성을 넘어 정밀한 이미지 편집 도구로 발전했습니다.

Stable Diffusion을 처음 시작하는 사람에게는 최소 8GB VRAM을 가진 NVIDIA GPU를 권장합니다. Apple Silicon(M1/M2/M3) Mac에서는 Metal Performance Shaders를 통해 실행할 수 있어 NVIDIA GPU가 없어도 사용 가능합니다. 클라우드 환경에서 시작하고 싶다면 Google Colab, RunPod, Vast.ai 같은 GPU 클라우드 서비스에서 Stable Diffusion 환경을 빠르게 설정할 수 있습니다. 로컬 설치보다 초기 비용 없이 바로 사용해볼 수 있다는 장점이 있습니다.