AI VIDEO BRIEFING
확산 모델 원리: AI가 노이즈로 텍스트를 이미지로 만드는 방법
DALL-E 같은 AI 이미지 생성의 핵심인 확산 모델을 순방향·역방향 확산과 텍스트 조건부 생성 세 단계로 쉽게 풀어 설명합니다.

핵심 메시지
쉽게 이해하기
확산 모델은 물에 떨어뜨린 빨간 잉크가 평형에 이를 때까지 퍼지는 물리적 확산에서 착안한 이미지 생성 기법이다. 잉크가 퍼지는 과정을 거꾸로 돌려 맑은 물을 되찾는 상상이 바로 확산 모델이 이미지를 만드는 발상의 출발점이다. DALL-E 3 같은 도구가 '농구하는 선글라스 낀 거북이' 같은 프롬프트에서 사실적인 이미지를 만들어내는 것도 이 원리에 기반한다.
첫 단계인 순방향 확산은 학습 이미지에 여러 시간 단계에 걸쳐 노이즈를 더해 점차 특징을 잃게 만든다. 노이즈는 마르코프 연쇄로 더해지는데, 이는 현재 상태가 바로 직전 상태에만 의존한다는 뜻이다. 각 픽셀의 RGB 값에 가우시안 분포에서 무작위로 뽑은 값을 더하며, 순수한 빨강(255,0,0) 픽셀이 단계를 거치며 조금씩 다른 색으로 흐트러진다.
이 과정을 1,000여 번 반복하면 이미지의 형태와 윤곽이 흐려지고 결국 TV 노이즈 같은 백색 잡음만 남는다. 깨끗한 그림이 잡음으로 변하는 속도는 노이즈 스케줄러(분산 스케줄러)가 가우시안 분포의 분산을 조절해 결정한다. 분산이 클수록 픽셀 색이 더 급격하게 변한다.
두 번째 단계인 역방향 확산은 무작위 노이즈에서 출발해 노이즈를 구조적으로 제거하며 이미지를 복원한다. 영상은 '모든 돌덩이 안에는 조각상이 들어 있고 그것을 드러내는 것이 조각가의 일'이라는 미켈란젤로의 말에 빗대 설명한다. U-Net이라는 합성곱 신경망이 직전 단계에 더해진 노이즈를 예측하고 빼내는 일을 반복해, 흐릿한 잡음에서 팔과 다리가 서서히 드러나듯 점점 또렷한 이미지를 만든다.
마지막으로 텍스트를 반영하려면 조건부(가이드) 확산이 필요하다. 프롬프트를 의미를 담은 숫자 벡터인 임베딩으로 바꾸고, 학습 때 이미지-텍스트 쌍으로 짝지어 텍스트에 맞는 노이즈 제거 패턴을 배운다. 자기어텐션 가이던스는 프롬프트의 특정 부분이 이미지의 어느 영역에 영향을 주는지 주목하게 하고, 분류기 없는 가이던스는 특정 단어의 효과를 증폭한다. 이렇게 학습된 모델은 새 프롬프트를 받아 무작위 노이즈에서 안개를 걷어내듯 처음 보는 이미지를 생성한다.
주요 인사이트
- 확산 모델의 핵심은 '노이즈를 더하는 법'이 아니라 '더해진 노이즈를 예측해 빼는 법'을 학습하는 데 있다. 생성은 학습한 노이즈 제거 과정을 거꾸로 적용하는 일이다.
- 마르코프 연쇄와 가우시안 노이즈라는 비교적 단순한 수학적 장치만으로도 복잡하고 사실적인 이미지 생성이 가능하다는 점이 확산 모델의 강점이다.
- 텍스트 임베딩이 의미를 포착하기 때문에(예: KING이 WOMAN보다 MAN에 더 가깝다) 모델은 단어의 의미와 노이즈 제거 패턴 사이의 관계를 배울 수 있다.
- 노이즈 스케줄러의 분산 설정은 학습과 생성의 품질·속도에 직접 영향을 주는 중요한 하이퍼파라미터다.
- 확산 모델은 이미지에 국한되지 않고 인페인팅, 오디오·비디오, 의료, 분자 모델링까지 적용 범위가 넓어 범용 생성 기법으로 자리잡고 있다.
자주 묻는 질문
순방향 확산과 역방향 확산은 무엇이 다른가요?
순방향 확산은 이미지에 여러 단계에 걸쳐 가우시안 노이즈를 더해 형체를 없애는 과정이고, 역방향 확산은 그 노이즈를 구조적으로 제거하며 깨끗한 이미지를 복원하는 과정입니다. 모델은 역방향 과정을 학습합니다.
확산 모델은 어떻게 텍스트 프롬프트를 반영하나요?
프롬프트를 의미를 담은 임베딩 벡터로 바꾼 뒤, 조건부(가이드) 확산을 통해 텍스트에 맞춰 노이즈를 제거합니다. 자기어텐션 가이던스와 분류기 없는 가이던스 같은 방법으로 단어가 이미지 생성에 미치는 영향을 반영합니다.
노이즈를 예측하는 신경망은 무엇이며 어떻게 학습하나요?
U-Net이라는 합성곱 신경망이 사용됩니다. 임의의 시점에서 직전 단계에 더해진 노이즈를 예측하고, 예측 노이즈와 실제 노이즈의 평균제곱오차를 최소화하도록 학습합니다.
확산 모델은 이미지 생성 외에 어디에 쓰이나요?
이미지 변환(image-to-image), 빠진 부분을 채우는 인페인팅, 오디오·비디오 같은 다른 매체 생성에 쓰이며, 마케팅·의료·분자 모델링 등 다양한 분야에 적용되고 있습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗