AI VIDEO BRIEFING

확산 모델 DDPM 원리: 노이즈 제거로 이미지를 생성하는 생성형 AI의 핵심

이미지·영상·신약까지 만드는 확산 모델의 작동 원리를, 2020년 DDPM 논문을 따라 노이즈 추가와 역방향 제거, 학습 목표 단순화까지 단계별로 풀어 설명합니다.

확산 모델(DDPM)은 어떻게 노이즈에서 이미지를 만들어내는가 영상 대표 이미지

핵심 메시지

  • 확산 모델은 이미지에 가우시안 노이즈를 조금씩 더해 순수 노이즈로 만든 뒤, 그 과정을 거꾸로 되돌리도록 신경망을 학습시켜 새 이미지를 생성한다.
  • 오늘날 가장 많이 인용되는 DDPM(2020) 논문은 확산 모델을 처음 만든 것이 아니라, 학습 목표를 단순화해 실용적인 최첨단 이미지 생성 기법으로 끌어올린 데 기여했다.
  • 노이즈를 무한정 키우는 대신 평균을 0, 분산을 1로 수렴시키는 '분산 보존' 방식을 써야 학습 과정이 표준 정규분포로 안정적으로 수렴한다.
  • 복잡한 음의 로그우도 대신 ELBO라는 상한을 도입하고 정리하면, 최종 학습 목표는 '실제 노이즈와 신경망이 예측한 노이즈의 제곱 거리'라는 매우 단순한 형태가 된다.
  • 추론 시에는 순수 노이즈에서 시작해 신경망으로 노이즈를 조금씩 빼는 과정을 보통 천 번 반복하며, 화질을 얻는 대가로 많은 연산을 치른다.

쉽게 이해하기

확산 모델은 이미지, 영상, 음악, 3D 모델은 물론 새로운 분자 발견에 이르기까지 거의 모든 분야에서 쓰이고 있다. 그러나 결과가 인상적인 것과 별개로 그 밑바탕 이론은 수식이 많아 처음에는 다가가기 어렵다. 이 영상은 확산 모델을 대중화한 2020년 'Denoising Diffusion Probabilistic Models(DDPM)' 논문을 단계별로 따라가며 핵심 아이디어를 풀어낸다.

흥미롭게도 DDPM 논문이 확산 모델이라는 개념을 처음 만든 것은 아니다. 가장 이른 형태는 2015년 'Deep Unsupervised Learning using Nonequilibrium Thermodynamics' 논문에서 등장했다. 당시에는 GAN이 이미지 생성의 최첨단으로 여겨져 확산 모델은 거의 주목받지 못했지만, 2020년 DDPM 논문은 빠르게 자리를 잡아 2025년 기준 2만 회가 넘는 인용을 기록하며 이 분야에서 가장 많이 인용되는 연구가 되었다.

핵심 아이디어는 '노이즈 제거'라는 얼핏 무관해 보이는 과정에 있다. 먼저 깨끗한 이미지에 매 단계 약간의 가우시안 노이즈를 더해 구조를 서서히 지우고, 충분히 반복하면 이미지는 순수 노이즈가 된다. 그다음 이 단계를 거꾸로 되돌려 노이즈를 조금씩 걷어내도록 신경망을 학습시키면, 모델은 무작위 노이즈에서 출발해 의미 있는 이미지로 정제해 나갈 수 있다.

수학적으로는 단순히 노이즈를 더하는 방식만 쓰면 평균은 원본 이미지에 고정된 채 분산만 무한히 커져(분산 폭발) 정규분포로 수렴하지 못하는 문제가 생긴다. DDPM 저자들은 평균 앞에 '1 빼기 분산의 제곱근'이라는 계수를 두어 평균이 0으로, 분산이 1로 수렴하는 '분산 보존' 확산 과정을 설계했다.

학습은 직접 계산이 불가능한 음의 로그우도 대신 ELBO(증거 하한)를 최소화하는 방식으로 이뤄진다. 정리 과정을 거치면 KL 발산 항들의 합으로 바뀌고, 근사 사후분포를 가우시안으로 두면 이는 평균 사이의 L2 거리로 단순화된다. 재매개변수화 트릭을 적용하면 최종적으로 '실제 노이즈와 예측 노이즈의 제곱 거리'를 줄이는 간단한 손실 함수가 남는다.

주요 인사이트

  • 확산 모델의 강점은 복잡한 데이터 분포를 직접 수식으로 기술하지 않고도, 노이즈를 더하고 빼는 가역적 과정만으로 새 표본을 만들어낼 수 있다는 점이다.
  • 학습 시에는 깨끗한 원본 이미지를 알기 때문에 '참 사후분포'를 정확히 계산할 수 있지만, 추론 시에는 원본이 없으므로 신경망이 그 참 사후분포의 평균을 흉내 내도록 학습한다.
  • 모든 시점을 더하는 대신 표본마다 무작위 시점 하나만 뽑아 학습해도 다수 표본에 대해 원래 목표로 수렴하므로, 학습이 단순하고 효율적이다.
  • 원 논문처럼 모든 시점에 동일한 가중치를 주는 더 단순한 손실이 시간 의존 가중치를 쓸 때보다 종종 더 좋은 결과를 낸다.
  • DeepInverse 같은 라이브러리를 쓰면 사전 학습 가중치를 한두 줄만 바꿔 MNIST 손글씨에서 FFHQ 고화질 인물 사진까지 같은 샘플링 코드로 생성할 수 있고, 핵심 샘플링 루프는 30줄도 안 된다.

자주 묻는 질문

DDPM 논문이 확산 모델을 처음 발명한 것인가?

아니다. 확산 모델의 가장 이른 형태는 2015년 'Deep Unsupervised Learning using Nonequilibrium Thermodynamics' 논문에서 나왔다. 2020년 DDPM 논문은 학습 목표를 크게 단순화해 확산 모델을 이론적 개념에서 실용적인 최첨단 이미지 생성 기법으로 끌어올린 데 기여했다.

확산 모델의 최종 학습 목표는 무엇인가?

복잡한 음의 로그우도와 ELBO를 정리하고 재매개변수화 트릭을 적용하면, 최종 손실은 이미지에 실제로 더해진 노이즈와 신경망이 예측한 노이즈 사이의 단순한 제곱(L2) 거리로 귀결된다. 즉 신경망은 더해진 노이즈를 최대한 정확히 예측하도록 학습된다.

추론 시 이미지를 한 번에 만들 수 있는가?

DDPM에서는 순수 가우시안 노이즈에서 시작해 신경망으로 노이즈를 조금씩 제거하는 과정을 보통 천 번가량 반복한다. 높은 화질을 얻는 대가로 신경망을 한 번이 아니라 수천 번 평가하는 셈이며, 적은 단계로 같은 품질을 내는 방법은 이후 연구의 주제가 되었다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식