AI VIDEO BRIEFING

확산 모델 DDPM 원리 — 순방향·역방향 과정과 노이즈 예측 학습

DDPM 확산 모델은 이미지에 노이즈를 점진적으로 더해 완전한 잡음으로 만든 뒤, 신경망이 그 역과정을 학습해 노이즈에서 이미지를 복원한다. 순방향·역방향 과정과 학습 목표를 직관적으로 풀어본다.

출처: ExplainingAI2023년 11월 17일AI 보조 요약

확산 모델(DDPM)은 어떻게 노이즈에서 이미지를 만들어내는가 영상 대표 이미지

핵심 메시지

DDPM(denoising diffusion probabilistic models)은 이미지 생성 분야의 대표적인 확산 모델 논문이다.
순방향 과정은 이미지에 가우시안 노이즈를 조금씩 여러 단계에 걸쳐 더해, 결국 정규분포에서 뽑은 완전한 잡음으로 만든다.
역방향 과정은 신경망이 노이즈를 한 단계씩 제거하도록 학습하며, 무작위 잡음에서 출발해 반복 제거하면 원래 분포의 이미지가 나온다.
확산은 전이 커널을 반복 적용해 복잡한 분포를 단순한 분포로 바꾸는 확률적 마르코프 과정으로 볼 수 있다.
복잡한 수식을 거치지만 최종 학습 목표는 '실제로 더해진 노이즈와 모델이 예측한 노이즈의 차이를 줄이는 것'이라는 단순한 형태로 정리된다.

쉽게 이해하기

확산 모델의 기본 아이디어는 이미지의 정보를 점진적으로 파괴하는 것이다. 시간 단계 T에 걸쳐 매 단계마다 약간의 가우시안 노이즈를 더하면, 많은 단계가 지난 뒤에는 정규분포에서 뽑은 표본과 다를 바 없는 완전한 무작위 잡음이 된다. 이것을 순방향 과정(forward process)이라 부르며, 각 단계는 XT-1에서 XT로 가는 전이 함수로 표현된다.

역방향 과정은 신경망이 이 과정을 거꾸로 학습하는 것으로, 모델은 이미지에서 노이즈를 한 단계씩 제거하는 법을 배운다. 학습이 끝나면 정규분포에서 뽑은 무작위 잡음을 넣고, 모델이 조금 덜어낸 이미지를 다시 넣기를 반복한다. 충분히 많은 제거 단계를 거치면 원래 분포에 속하는 이미지가 만들어진다.

영상은 '왜 하필 확산인가'를 직관적으로 설명한다. 확산 과정은 확률적(stochastic)이고 마르코프(Markov)이며 연속적인 과정으로, 현재 상태만 알면 과거 정보 없이도 미래를 예측할 수 있다. 이 관점에서 확산은 복잡한 분포의 표본을 전이 커널을 반복 적용해 단순한 분포(정규분포)로 옮기는 과정이며, 입력 이미지라는 복잡한 분포를 단순한 사전분포로 바꾸는 데 들어맞는다. 이는 변분 오토인코더(VAE)와 목표는 비슷하되, 그 과정을 물리학의 확산 개념을 빌려 여러 단계로 모델링한다는 점이 다르다.

전이 함수의 계수(알파·베타)에는 이유가 있다. 영상은 1차원 분포에 전이를 반복 적용하며 히스토그램이 어떻게 변하는지 보여주고, 계수를 잘못 잡으면 분산이 폭발하거나 변화가 급격해진다고 설명한다. 저자들이 쓴 √(1-β)와 √β 형태는 최종 분산의 합이 1이 되도록 맞춘 것이며, 직관적으로는 '원래 구조를 파괴하는 정도'와 '더하는 노이즈의 양'을 서로 연동시키는 의미를 갖는다. 또한 누적 곱 항을 미리 계산하면, 1000단계를 일일이 거치지 않고도 임의의 시점 t의 노이즈 이미지를 한 번에 구할 수 있다.

노이즈는 모든 단계에서 고정값이 아니라 스케줄을 따른다. 저자들은 시간이 갈수록 노이즈 분산을 키우는 선형 스케줄을 쓰는데, 역과정 관점에서 보면 시작 단계에서는 큰 폭으로 노이즈를 덜어내고 끝에 가까워질수록 작고 신중한 단계를 밟는 것이 자연스럽기 때문이다. 역방향 또한 가우시안 전이를 갖는 확산 과정이라, 신경망으로 그 평균과 분산을 근사해 학습한다.

수식 전개의 결론은 단순하다. 저자들은 분산을 순방향과 같은 값으로 고정하고, 손실을 '실제로 더해진 노이즈와 모델이 예측한 노이즈의 제곱 차이'로 정리한다. 스케일링 항은 실험적으로 무시해도 충분하다고 본다. 학습은 이미지와 시점 t, 노이즈를 무작위로 뽑아 노이즈 이미지를 만들고 그 노이즈를 예측하게 하며, 생성은 무작위 잡음에서 시작해 학습된 역과정을 반복 표본추출하는 식으로 이뤄진다.

주요 인사이트

확산 모델의 본질은 '이미지를 노이즈로 만드는 순방향'을 모델링해, 그 역과정인 '노이즈에서 이미지를 생성하는 과정'을 신경망이 배우게 하는 데 있다.
겉보기에 VAE와 목표가 비슷하지만, 한 번에 잠재공간으로 보내는 대신 여러 단계의 점진적 변환으로 모델링한다는 점이 확산 모델의 차별점이다.
순방향 과정의 누적 곱 항을 미리 계산해두면 임의 시점의 노이즈 이미지를 한 번에 얻을 수 있어, 마르코프 체인을 매번 끝까지 돌리지 않아도 되어 학습이 효율적이다.
복잡한 유도 끝에 남는 학습 목표는 '더해진 노이즈를 잘 예측하는 것'이라는 단순한 형태이며, 저자들은 스케일링까지 생략해도 학습이 충분히 잘된다는 점을 실험으로 확인했다.
노이즈 스케줄(선형)은 역과정 초반에는 큰 변화, 후반에는 작은 변화를 만들도록 분산을 부드럽게 조절하는 역할을 한다.

자주 묻는 질문

DDPM에서 순방향 과정이란 무엇인가?

이미지에 매 단계 약간의 가우시안 노이즈를 더해 정보를 점진적으로 파괴하는 과정이다. 충분히 많은 단계를 거치면 정규분포에서 뽑은 표본과 같은 완전한 무작위 잡음이 된다.

이미지는 어떻게 생성되는가?

정규분포에서 뽑은 무작위 잡음에서 출발해, 학습된 신경망이 노이즈를 조금씩 제거한다. 이 제거 과정을 여러 번 반복하면 원래 분포에 속하는 이미지가 만들어진다.

확산 모델은 왜 '확산'이라고 부르나?

물리학의 확산 개념처럼, 복잡한 분포의 표본을 전이 커널을 반복 적용해 단순한 정규분포로 점진적으로 옮기는 확률적 마르코프 과정이기 때문이다.

최종적으로 모델이 학습하는 목표는 무엇인가?

분산을 순방향과 같은 값으로 고정한 뒤, 실제로 더해진 노이즈와 모델이 예측한 노이즈의 제곱 차이를 줄이는 것이 핵심 학습 목표다. 저자들은 스케일링 항을 생략해도 잘 작동함을 확인했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗