AI VIDEO BRIEFING

확산 모델(Diffusion Model) 원리 쉽게 이해하기: DALL·E·이미지 생성 AI의 핵심

DALL·E와 Imagen 같은 이미지 생성 AI의 토대인 확산 모델을, 물에 퍼지는 물감 비유부터 가우시안 노이즈와 U-Net까지 난이도 5단계로 차근차근 설명한다.

출처: AssemblyAI2022년 6월 17일AI 보조 요약

AI는 어떻게 그림을 그릴까: 확산 모델(Diffusion Model)을 5단계로 풀다 영상 대표 이미지

핵심 메시지

확산 모델은 오디오·이미지 생성 등에 쓰이는 비교적 새로운 생성 모델로, DALL·E와 Imagen 같은 서비스의 핵심을 이룬다.
아이디어는 물에 떨어진 물감이 퍼지는 비평형 열역학에서 영감을 받았으며, 핵심은 그 확산 과정을 거꾸로 되돌리는 법을 학습하는 것이다.
학습 과정은 원본 이미지에 노이즈를 조금씩 더해 완전한 잡음으로 만든 뒤, 그 과정을 역으로 복원하는 방법을 배우는 것이다.
더해지는 잡음은 가우시안(정규분포) 노이즈이며, 마르코프 체인을 따라 현재 단계가 직전 단계에만 의존하도록 적용된다.
노이즈를 되돌릴 때는 U-Net이라는 합성곱 신경망을 써서 입력과 출력 이미지의 크기를 같게 유지한다.

쉽게 이해하기

확산 모델은 딥러닝 분야의 비교적 새로운 발명으로, 오디오나 이미지 같은 여러 영역에서 콘텐츠를 만들어내는 생성 모델이다. 영상은 DALL·E나 Imagen에서 이름을 들어봤을 수 있다고 소개하며, GLIDE처럼 단독으로 쓰이기도 하고 DALL·E 2처럼 더 크고 복잡한 모델의 일부로 쓰이기도 한다고 설명한다. 내부 작동이 복잡한 만큼 난이도를 다섯 단계로 나눠 풀어간다.

1단계는 직관이다. 확산 모델은 물리학의 비평형 열역학에서 영감을 받았다. 유리잔 물에 떨어뜨린 물감 한 방울은 처음엔 한 지점에 농도가 높지만 물리 법칙에 따라 점차 퍼져 평형에 이른다. 현실에서는 이 과정을 되돌릴 수 없지만, 확산 모델의 목표는 바로 이 과정을 역으로 되돌려 물감을 원래 상태로 돌리는 모델을 학습하는 것이다. 퍼지면서 잃어버리는 정보가 곧 선명한 이미지에 해당한다.

2단계는 학습 방식이다. 확산 모델은 원본 이미지에 노이즈를 더하고, 나중에 그 노이즈 과정을 거꾸로 되돌리는 법을 배우는 식으로 작동한다. 노이즈는 마르코프 체인을 따라 적용되는데, 마르코프 체인은 현재 시점이 오직 직전 시점에만 의존하는 사건의 연쇄다. 이 가정 덕분에 나중에 노이즈를 역으로 되돌리는 계산이 가능해진다. 학습이 끝나면 모델은 잡음만 주어져도 고해상도 이미지를 생성할 수 있다.

3단계는 노이즈의 정체다. 확산 모델이 더하는 것은 가우시안(정규분포) 노이즈로, 평균과 분산에 따라 위치와 폭은 달라져도 종 모양은 유지된다. 영상은 2픽셀 이미지를 예로 들어, 노이즈를 더한다는 것은 확률분포에서 무작위 위치를 골라 픽셀 값을 조금씩 바꾸는 것임을 보여준다. 이 작업을 수백~수천 번 반복하면 이미지는 결국 잡음만 남고, 그 결과 수백~수천 단계의 마르코프 체인이 만들어진다.

4단계는 역과정이다. 노이즈를 제거한다는 것은 픽셀 값을 복원해 원본과 닮은 이미지를 되찾는 일이며, 확산 모델은 이를 신경망으로 해낸다. 이미지를 합성곱 신경망에 넣어 직전 단계의 이미지를 만들어내게 하는데, 원 논문이 쓴 구조는 그 모양 때문에 U-Net이라 불린다. U-Net은 합성곱으로 이미지를 작은 표현으로 압축했다가 다시 원래 크기로 복원해, 입력과 출력의 크기를 같게 유지한다.

주요 인사이트

확산 모델의 직관은 “정보를 잃는 확산 과정을 거꾸로 되돌린다”는 것으로, 물감이 물에 퍼지는 비유가 핵심을 잘 담는다.
노이즈를 한꺼번에 넣지 않고 수백~수천 번에 걸쳐 조금씩 더하는 점진성이, 역과정을 학습 가능하게 만드는 열쇠다.
마르코프 체인 가정(현재가 직전에만 의존) 덕분에 노이즈 추가 과정을 다루기 쉬운 형태로 역전시킬 수 있다.
복원에 쓰는 U-Net은 이미지를 압축했다 펴는 구조라 입력과 출력 해상도를 동일하게 유지한다.
실제 이미지는 픽셀이 매우 많아 확률분포의 차원도 그만큼 커지지만, 2픽셀 예시로 원리를 직관적으로 이해할 수 있다.

자주 묻는 질문

확산 모델은 어떤 서비스에 쓰이나요?

DALL·E, Imagen, GLIDE 같은 이미지 생성에 쓰이며, 단독으로도 또는 DALL·E 2처럼 더 큰 모델의 일부로도 활용됩니다.

확산 모델이 영감을 받은 분야는 무엇인가요?

물리학의 비평형 열역학으로, 물에 떨어진 물감이 퍼지는 현상처럼 평형 상태가 아닌 시스템을 다루는 분야에서 아이디어를 얻었습니다.

모델이 더하는 노이즈는 어떤 종류인가요?

가우시안(정규분포) 노이즈입니다. 평균과 분산에 따라 분포의 위치와 폭은 달라지지만 종 모양 형태는 그대로 유지됩니다.

노이즈를 되돌릴 때 어떤 신경망을 사용하나요?

U-Net이라 불리는 합성곱 신경망을 사용하며, 이미지를 작은 표현으로 압축했다가 다시 원래 크기로 복원해 입력과 출력 크기를 같게 맞춥니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗