AI VIDEO BRIEFING
디퓨전 모델 원리 정리: 순방향·역방향 과정, DDPM, 분류기 없는 가이던스까지
이미지를 노이즈로 망가뜨렸다가 되돌리며 학습하는 디퓨전 모델의 순방향·역방향 과정, 학습 목표, DDPM의 노이즈 예측, 조건부 생성과 가이던스 기법을 정리했습니다.

핵심 메시지
쉽게 이해하기
디퓨전 모델의 기본 아이디어는 단순하다. 이미지에 가우시안 노이즈를 조금씩 반복해 더하면 결국 알아볼 수 없는 순수 잡음이 된다. 반대로 이 과정을 거꾸로 되돌려 노이즈에서 출발해 잡음을 점차 제거하면 일관된 이미지를 얻을 수 있다. 디퓨전 모델은 특히 이미지 생성에서 성과를 내, 지각 품질 지표에서 GAN을 능가하기도 했고 텍스트-이미지 변환, 인페인팅, 이미지 조작 같은 조건부 생성에서도 좋은 성능을 보였다.
순방향 과정 Q는 마르코프 연쇄로, 각 시점의 분포가 바로 직전 샘플에만 의존한다. 매 단계는 대각 가우시안으로 정의되고, 분산 베타는 보통 하이퍼파라미터로 고정된 스케줄을 따르며 시간이 갈수록 커지되 0과 1 사이로 제한된다. 시간 T가 무한대로 가면 Q는 원본 정보를 모두 잃고 평균이 0인 가우시안으로 수렴한다. 실제로는 전체 단계 수를 약 1,000개로 두어 단계별 분산을 매우 작게 유지한다.
스텝을 작게 두는 이유는 역방향 학습을 쉽게 하기 위해서다. 노이즈 단계가 크면 이전 단계가 어디서 왔는지 불확실하지만, 작으면 모호함이 줄어 역방향 사후분포를 단봉 가우시안으로 모델링할 수 있다. 실제로 스텝 크기가 무한히 작은 극한에서는 역방향 과정이 순방향과 같은 함수 형태를 가진다는 점이 이론적으로 보장된다. 역방향 과정도 마르코프 연쇄로 설정되며, 모델은 노이즈 수준을 구분하기 위해 시점 t도 입력으로 받는다. 추론 시에는 가우시안에서 시작해 학습된 역방향 단계를 차례로 샘플링하며 이미지를 만든다.
학습 목표로 P(x0)를 직접 최대화하려면 노이즈에서 x0에 이르는 모든 경로를 적분해야 해서 계산이 불가능하다. 대신 변분 하한(증거 하한)을 최대화한다. 디퓨전 모델은 VAE처럼 잠재변수 생성 모델로 볼 수 있는데, 순방향 과정이 인코더, 역방향 과정이 디코더에 대응한다. 다만 순방향은 고정돼 있어 VAE와 달리 신경망 하나만 학습하면 된다. 순방향의 임의 단계를 닫힌 형태로 바로 샘플링할 수 있는 성질을 이용하고, 목표 함수를 두 가우시안 사이의 KL 발산 비교로 정리하면 닫힌 형태로 계산돼 학습 분산이 줄어든다.
DDPM 논문은 역방향 분산을 학습하면 불안정해지고 품질이 떨어진다는 이유로 시간별 상수로 고정하고, 신경망은 평균 대신 더해진 노이즈(엡실론)를 예측하도록 재매개변수화했다. 또 원래 변분 하한의 가중치를 버린 단순한 목표가 더 나은 샘플 품질을 냈는데, 이는 노이즈가 작은 초기 단계의 비중을 낮추고 더 어려운 큰 노이즈 단계에 집중하게 한다. 조건부 생성은 라벨이나 문장 설명 y를 입력으로 주는 방식 외에, 별도 분류기의 기울기로 역방향을 밀어주는 분류기 가이던스, 학습 중 일부 확률로 라벨을 비우고 추론 때 조건 방향으로 더 밀어주는 분류기 없는 가이던스가 있다.
다른 생성 모델과 비교하면, 디퓨전 모델은 느린 마르코프 연쇄 때문에 한 번의 순전파로 이미지를 만드는 GAN보다 샘플링이 느리다는 한계가 있다. 다만 VAE처럼 로그 가능도의 변분 하한을 계산할 수 있고, 이 하한이 자기회귀 모델이 강세였던 밀도 추정 벤치마크에서도 경쟁력이 있다. 또한 디퓨전 모델은 스코어 매칭 모델과 밀접해, 예측하는 노이즈가 데이터 로그 밀도의 기울기(스코어)와 스케일링 차이를 빼면 사실상 같다는 점이 알려져 있다.
주요 인사이트
- 순방향 과정을 고정하고 역방향만 학습하기 때문에, 두 신경망을 함께 학습해야 하는 VAE와 달리 하나의 네트워크만 훈련하면 된다.
- 스텝을 잘게 쪼개는 것이 핵심 트릭이다. 작은 노이즈 단계는 역방향 사후분포를 단봉 가우시안으로 근사할 수 있게 해 학습 난도를 크게 낮춘다.
- DDPM은 분산을 고정하고 노이즈 자체를 예측하게 만들며, 작은 노이즈 단계의 비중을 낮춘 단순화된 목표로 오히려 더 좋은 샘플 품질을 얻었다.
- 분류기 없는 가이던스는 별도의 분류기 없이 모델 스스로 조건 방향으로 샘플을 밀어, 사람 평가 기준 분류기 가이던스보다 높은 품질을 보였다.
- 디퓨전 모델은 표현력은 뛰어나지만 마르코프 연쇄 때문에 GAN보다 느려, 샘플링 속도를 높이는 연구가 계속되고 있다.
자주 묻는 질문
디퓨전 모델은 어떻게 이미지를 생성하나요?
이미지에 가우시안 노이즈를 점진적으로 더해 순수 잡음으로 만드는 순방향 과정을 정의한 뒤, 이를 거꾸로 되돌려 노이즈에서 출발해 잡음을 단계적으로 제거하는 역방향 과정을 학습합니다. 추론 시에는 가우시안 노이즈에서 시작해 학습된 역방향 단계를 차례로 적용해 이미지를 만듭니다.
노이즈 단계를 작게 쪼개는 이유는 무엇인가요?
노이즈 단계가 크면 직전 단계가 어디서 왔는지 불확실하지만, 작게 두면 모호함이 줄어 역방향 사후분포를 단봉 가우시안으로 모델링할 수 있습니다. 스텝 크기가 무한히 작은 극한에서는 역방향이 순방향과 같은 함수 형태를 가진다는 점도 이론적으로 보장됩니다.
DDPM은 무엇을 다르게 했나요?
DDPM은 역방향 분산을 학습하지 않고 시간별 상수로 고정했고, 신경망이 평균 대신 더해진 노이즈를 예측하도록 재매개변수화했습니다. 또 변분 하한의 가중치를 버린 단순한 목표를 써서 큰 노이즈 단계에 집중하게 해 더 나은 샘플 품질을 얻었습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗