AI VIDEO BRIEFING

확산 모델 원리 정리: 노이즈 제거로 이미지·영상을 만드는 AI의 작동 방식

텍스트로 이미지와 영상을 만드는 확산 모델이 무작위 노이즈에서 시작해 어떻게 사실적인 결과를 만드는지, CLIP·DDPM·DDIM·분류기 없는 안내까지 핵심 원리를 풀어 설명한다.

출처: 3Blue1Brown2025년 7월 25일AI 보조 요약

노이즈에서 영상이 태어나는 법: 확산 모델과 물리학의 만남 영상 대표 이미지

핵심 메시지

오늘날의 이미지·영상 생성 모델은 무작위 노이즈에서 출발해 단계적으로 노이즈를 걷어내는 '확산' 과정으로 결과물을 만든다.
CLIP은 이미지와 텍스트를 같은 고차원 공간의 벡터로 정렬해, 단어와 그림을 수학적으로 연결할 수 있게 해준다.
버클리의 DDPM 논문은 한 단계씩 노이즈를 빼는 대신 '추가된 총 노이즈'를 예측하도록 모델을 훈련시켜 생성 품질을 끌어올렸다.
생성 과정에서 무작위 노이즈를 빼면 결과가 데이터의 평균으로 몰려 흐릿해진다는 점이 확산 과정의 핵심을 보여준다.
분류기 없는 안내(classifier-free guidance)는 조건부·무조건 벡터의 차이를 증폭해 프롬프트가 요구하는 방향으로 결과를 강하게 끌어당긴다.

쉽게 이해하기

영상은 텍스트 프롬프트만으로 사실적인 이미지와 동영상을 만들어내는 현 세대 AI 모델의 내부를 들여다본다. 이들 모델은 '확산(diffusion)'이라는 과정을 사용하는데, 이는 입자가 퍼져 나가는 브라운 운동을 시간을 거꾸로 돌려 고차원 공간에서 실행하는 것과 같다. 오픈 소스 모델 WAN 2.1의 코드를 보면 영상 생성은 난수 생성기로 만든 순수 노이즈 영상에서 시작하며, 트랜스포머가 이를 여러 번 통과시키며 점점 또렷한 영상으로 바꿔 놓는다.

첫 번째 축은 2021년 OpenAI의 CLIP이다. CLIP은 텍스트 모델과 이미지 모델 두 개로 이뤄지며, 인터넷에서 모은 4억 개의 이미지-캡션 쌍으로 학습한다. 같은 쌍의 벡터는 가깝게, 어긋난 쌍은 멀어지게 만드는 대조(contrastive) 학습을 통해, 이미지와 텍스트가 공유하는 임베딩 공간을 만든다. 이 공간에서는 '모자를 쓴 사진'에서 '쓰지 않은 사진'을 빼면 '모자'라는 단어 벡터가 가장 가깝게 나오는 식의 의미 연산이 가능하다.

두 번째 축은 확산 과정 자체다. 버클리 팀의 DDPM 논문은 학습 이미지에 노이즈를 단계적으로 더해 완전히 망가뜨린 뒤, 이를 역으로 되돌리도록 신경망을 훈련한다. 흥미롭게도 모델은 한 단계만 되돌리는 것이 아니라 원본에 더해진 '총 노이즈'를 예측하도록 학습하며, 이미지를 만드는 동안에도 매 단계 무작위 노이즈를 다시 더한다. 이 무작위 노이즈를 빼면 결과가 데이터의 평균으로 쏠려 흐릿해진다.

영상은 확산 모델을 '시간에 따라 변하는 벡터 필드'를 배우는 과정으로 재해석한다. 2차원 나선형 장난감 데이터로 보면, 모델은 각 지점에서 원래 데이터 분포를 다시 가리키는 방향(점수 함수)을 학습한다. 시간 변수를 함께 넣어주면 큰 값에서는 거친 구조를, 0에 가까워질수록 미세한 구조를 학습한다. 이후 스탠퍼드·구글 팀은 포커-플랑크 방정식을 이용해 무작위 단계 없이도 같은 분포를 얻는 DDIM을 제시해, 훨씬 적은 단계로 결정론적 생성을 가능하게 했다.

마지막 축은 프롬프트로 생성을 조종하는 방법이다. CLIP 텍스트 인코더의 출력 벡터를 확산 모델에 조건으로 넣는 컨디셔닝만으로는 부족했고, 여기에 분류기 없는 안내가 더해진다. 조건부 벡터에서 무조건 벡터를 빼 '프롬프트가 가리키는 방향'만 남긴 뒤 알파 계수로 증폭하면, 요청한 대상이 더 크고 선명하게 나타난다. WAN 모델은 한 발 더 나아가, 원치 않는 특징을 적어 빼는 네거티브 프롬프트까지 사용한다.

주요 인사이트

확산 모델의 이름과 알고리즘은 모두 물리학의 브라운 운동·확률 미분 방정식에서 나왔으며, 이 물리적 직관이 실제 생성 알고리즘을 설계하는 근거가 된다.
'한 단계씩 노이즈를 제거한다'는 직관적 설명은 실제 최신 모델의 작동 방식과 다르다. 핵심은 원본까지의 방향(총 노이즈)을 직접 예측해 학습 분산을 줄이는 데 있다.
생성 중 무작위 노이즈를 더하는 것은 결함이 아니라, 모델이 예측하는 정규 분포에서 실제로 표본을 뽑기 위한 필수 단계다. 이를 빼면 평균만 남아 이미지가 흐려진다.
DDIM은 모델 재학습 없이 무작위성을 제거해 적은 단계로 고품질 이미지를 만들 수 있게 했고, 이는 확산 모델의 실용적 확산에 결정적이었다.
텍스트 인코더(CLIP)와 확산 과정이라는 별개의 조각이 맞물려, 카메라나 그림 실력 없이 언어만으로 이미지를 만드는 새로운 종류의 도구가 탄생했다.

자주 묻는 질문

확산 모델은 이미지를 어떻게 만들기 시작하나요?

난수 생성기로 픽셀 값을 무작위로 채운 순수 노이즈 이미지(또는 영상)에서 시작합니다. 이후 트랜스포머가 이를 여러 번 통과시키며 단계적으로 노이즈를 걷어내 또렷한 결과물로 바꿉니다.

CLIP은 어떤 역할을 하나요?

CLIP은 이미지와 텍스트를 같은 고차원 벡터 공간에 정렬하도록 학습된 모델입니다. 일치하는 이미지-캡션 쌍은 가깝게, 어긋난 쌍은 멀어지게 만드는 대조 학습을 사용하며, 그 결과 텍스트로 확산 과정을 안내할 수 있는 공유 표현을 제공합니다.

생성 과정에서 무작위 노이즈를 빼면 왜 이미지가 흐려지나요?

모델이 학습하는 방향은 데이터 분포의 평균을 가리킵니다. 무작위 노이즈를 더해야 그 분포에서 실제 표본을 뽑을 수 있는데, 이를 빼면 모든 결과가 데이터의 중심(평균)으로 몰려 흐릿하고 비현실적인 이미지가 됩니다.

분류기 없는 안내(classifier-free guidance)란 무엇인가요?

프롬프트를 조건으로 준 벡터에서 조건이 없는 벡터를 빼서 '프롬프트가 가리키는 방향'만 남기고, 이를 알파 계수로 증폭하는 기법입니다. 안내 강도를 높이면 프롬프트가 요청한 대상이 더 크고 선명하게 나타납니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗