디퓨전 모델

중급

디퓨전 모델는 AI 문맥에서 자주 등장하는 개념입니다. 이 페이지는 중급 난이도로 디퓨전 모델의 뜻과 쓰임을 빠르게 이해할 수 있도록 정리한 AI 용어사전 항목입니다.

디퓨전 모델를 처음 보는 독자도 헷갈리지 않도록 정의와 맥락를 한 페이지에 묶었습니다. 아래 설명을 먼저 읽고, 이어서 연결된 개념과 글까지 보면 이해가 훨씬 빨라집니다.

디퓨전 모델(Diffusion Model)은 이미지에 노이즈를 점진적으로 추가했다가, 그 과정을 역방향으로 학습해 순수한 노이즈에서 깨끗한 이미지를 생성하는 생성 모델입니다. Stable Diffusion과 DALL-E 3·4의 핵심 기술이며, 현재 AI 이미지 생성 분야를 주도합니다.

디퓨전 모델의 학습은 두 단계로 이루어집니다. 순방향 과정(forward process)에서는 실제 이미지에 단계적으로 가우시안 노이즈를 추가해 완전한 잡음 이미지로 만들고, 역방향 과정(reverse process)에서는 그 노이즈를 제거하는 방법을 학습합니다. 생성 시에는 완전한 무작위 노이즈에서 시작해 반복적으로 노이즈를 제거하며 이미지를 완성합니다.

텍스트-이미지 생성에서는 CLIP 같은 텍스트 인코더와 결합한 Latent Diffusion Model(LDM) 방식을 씁니다. 사용자가 입력한 프롬프트가 텍스트 임베딩으로 변환되어 노이즈 제거 방향을 안내합니다. Midjourney·Adobe Firefly·DALL-E 4 등 주요 이미지 생성 서비스가 이 방식을 기반으로 합니다. 이미지 외에도 영상·3D·오디오 생성으로 영역이 확장되고 있습니다.

ℹ️쉽게 말하면

조각가가 대리석에서 불필요한 부분을 깎아내며 작품을 완성하듯, 디퓨전 모델은 무작위 잡음 덩어리에서 불필요한 노이즈를 반복적으로 제거하며 원하는 이미지를 조각해 냅니다.

디퓨전 모델의 이론적 배경은 비평형 통계 물리학에서 왔습니다. 물질이 높은 농도에서 낮은 농도로 확산(diffusion)하는 현상을 역방향으로 수학적으로 모델링한 것입니다. 2020년 Ho et al.의 논문 'Denoising Diffusion Probabilistic Models(DDPM)'이 현재 주류 디퓨전 모델 구조의 출발점이 되었습니다. 이전에 주류였던 GAN(적대적 생성 신경망)과 비교해 학습이 더 안정적이고 이미지 품질도 우수하다는 것이 확인되면서 빠르게 표준으로 자리 잡았습니다.

Latent Diffusion Model(LDM)은 디퓨전 모델의 실용적 한계를 극복한 구조입니다. 픽셀 공간에서 직접 노이즈 처리를 하면 계산 비용이 매우 크기 때문에, LDM은 이미지를 먼저 저차원의 잠재 공간(latent space)으로 압축한 뒤 그 공간에서 디퓨전을 수행합니다. Stable Diffusion이 이 방식을 채택해 일반 GPU에서도 고해상도 이미지를 생성할 수 있는 오픈소스 모델을 공개했고, 이를 계기로 AI 이미지 생성이 대중화되었습니다.

디퓨전 모델은 이미지 생성 외에도 다양한 분야로 적용 범위가 넓어지고 있습니다. 영상 생성에서는 Sora, Runway Gen-3가 디퓨전 기반 아키텍처를 사용하고, 오디오 생성에서는 AudioLM과 MusicGen이 유사한 원리를 적용합니다. 단백질 3D 구조 예측과 분자 설계 분야에서도 디퓨전 모델이 주목받고 있어, 신약 개발 가속화에 기여할 것으로 기대됩니다.

디퓨전 모델을 사용할 때 자주 등장하는 개념으로 '가이던스 스케일(Guidance Scale)'이 있습니다. 이 값이 높을수록 텍스트 프롬프트를 더 강하게 반영하지만 다양성이 줄어들고, 낮을수록 창의적이지만 프롬프트와 멀어질 수 있습니다. 또한 '추론 스텝 수(inference steps)'를 늘릴수록 이미지 품질이 높아지지만 생성 시간도 늘어납니다. DDIM, DPM-Solver 같은 빠른 샘플러가 개발되어 적은 스텝으로도 고품질 이미지를 만들 수 있게 되었습니다.

디퓨전 모델 관련 주요 오해 중 하나는 '프롬프트를 잘 쓰면 어떤 이미지든 나온다'는 생각입니다. 실제로는 모델이 학습한 데이터의 분포 밖에 있는 이미지 스타일이나 조합은 여전히 만들기 어렵습니다. 예를 들어 특정 인물의 얼굴이나 저작권 있는 캐릭터를 정확히 재현하는 것은 제약이 많습니다. 원하는 결과를 위해서는 LoRA(Low-Rank Adaptation) 파인튜닝이나 ControlNet 같은 제어 도구를 함께 사용하는 것이 일반적입니다.

ControlNet은 디퓨전 모델의 이미지 생성 방향을 더 세밀하게 제어하는 구조입니다. 엣지 맵, 깊이 맵, 포즈 정보 같은 조건 입력을 추가로 받아 원하는 구도나 형태를 유지하면서 이미지를 생성합니다. 예를 들어 인물 사진의 포즈 스켈레톤을 추출한 뒤 다른 스타일로 같은 포즈의 이미지를 만들 수 있습니다. 이 기술 덕분에 패션 디자인, 캐릭터 일러스트, 제품 광고 이미지 등 상업적 활용이 크게 늘었습니다.

디퓨전 모델은 딥페이크와 저작권 문제에서도 사회적 논쟁의 중심에 있습니다. 실제 인물과 구분하기 어려운 얼굴 이미지를 쉽게 만들 수 있어 사기, 명예훼손, 허위 정보 생성에 악용될 수 있습니다. 또한 모델 학습에 사용된 원본 이미지의 저작권 문제가 아직 법적으로 완전히 정리되지 않았습니다. 여러 나라에서 AI 생성 이미지에 대한 워터마킹 의무화, 모델 학습 데이터 투명성 공개 등의 규제 방향이 논의되고 있습니다.