AI VIDEO BRIEFING
AI 이미지 생성 원리: 디퓨전 모델이 노이즈로 그림을 만드는 법 (스테이블 디퓨전·DALL-E)
GAN과 무엇이 다른지부터, 노이즈를 단계적으로 더했다 걷어내는 디퓨전 과정과 텍스트로 그림을 유도하는 분류기 없는 가이던스까지 이미지 생성기의 작동 원리를 정리했습니다.

핵심 메시지
쉽게 이해하기
디퓨전은 DALL·E, 구글 Imagen, 스테이블 디퓨전 같은 도구가 이미지를 만드는 방식이다. 발표자는 코드를 내려받아 직접 다뤄보니 특별히 복잡하다기보다 움직이는 부품이 많은 것이라고 설명한다.
비교 대상인 GAN은 랜덤 노이즈를 큰 생성기 네트워크에 넣어 이미지를 만들고, 별도의 판별기가 진짜와 가짜를 구분하며 서로 발전한다. 하지만 학습이 어렵고, 같은 결과만 내놓는 모드 붕괴가 생기며, 노이즈에서 고해상도 이미지로 한 번에 가기가 까다롭다.
디퓨전은 이 과정을 작은 단계로 쪼갠다. 이미지에 가우시안 노이즈를 조금씩 더해 결국 완전한 노이즈로 만드는데, 단계별 노이즈 양을 정한 것이 '스케줄'이다(매번 같은 양을 더하는 선형 방식, 또는 후반에 더 많이 더하는 방식 등). 가우시안은 더하기 좋은 성질이 있어 임의의 시간 단계로 곧장 점프할 수 있다.
학습 때는 U자형 인코더-디코더 네트워크에 노이즈 이미지와 시간 단계를 함께 넣는다. 원본 이미지를 곧바로 내놓게 하기보다 '그 이미지에 더해진 전체 노이즈'를 예측하게 하는 편이 수학적으로 쉽고 안정적이다. 시간 단계별 가중치는 공유된다.
생성(추론) 때는 랜덤 노이즈에서 시작해 노이즈를 예측·제거해 원본을 추정한 뒤, 대부분의 노이즈를 다시 더해 한 단계 덜 노이즈한 이미지로 돌아가는 과정을 여러 번(예: 50회) 반복한다. 텍스트 프롬프트는 GPT식 트랜스포머 임베딩으로 조건으로 주입한다.
여기에 더해 '분류기 없는 가이던스'라는 기법을 쓴다. 같은 이미지를 텍스트 임베딩이 있는 경우와 없는 경우로 두 번 통과시켜 두 노이즈 예측의 차이를 증폭하면 결과가 텍스트를 훨씬 강하게 따른다. 끄면 흐릿한 형체만 나온다. 이런 모델 학습에는 큰 비용이 들지만, 스테이블 디퓨전처럼 무료로 쓸 수 있는 것은 구글 코랩 등에서 실행해볼 수 있다.
주요 인사이트
- 디퓨전이 GAN보다 안정적인 이유는 한 번에 이미지를 만드는 대신 노이즈 제거를 작은 단계로 나누기 때문이다.
- 네트워크가 '깨끗한 이미지'가 아니라 '더해진 노이즈'를 예측하도록 한 것이 학습을 쉽게 만든 핵심 설계 선택이다.
- 가우시안 노이즈의 덧셈 성질 덕분에 모든 단계를 거치지 않고도 임의 시간 단계의 학습 샘플을 즉시 만들 수 있다.
- 분류기 없는 가이던스는 텍스트가 있을 때와 없을 때 예측의 차이를 키워, 생성 결과가 프롬프트를 더 강하게 따르도록 만든다.
자주 묻는 질문
디퓨전 모델과 GAN의 가장 큰 차이는 무엇인가요?
GAN은 노이즈에서 한 번에 이미지를 만들고 판별기와 경쟁하지만, 디퓨전은 노이즈를 조금씩 더했다가 여러 단계에 걸쳐 되돌리며 더 안정적으로 학습합니다.
디퓨전 신경망은 무엇을 예측하나요?
노이즈가 섞인 이미지와 시간 단계를 입력받아 그 이미지에 더해진 노이즈를 예측합니다. 이 노이즈를 빼면 원본 추정치를 얻습니다.
텍스트 프롬프트는 어떻게 그림에 반영되나요?
텍스트를 GPT식 트랜스포머로 임베딩해 조건으로 넣고, 분류기 없는 가이던스로 텍스트가 있을 때와 없을 때 예측의 차이를 증폭해 일치도를 높입니다.
직접 실행해볼 수 있나요?
이런 모델을 학습시키는 데는 큰 비용이 들지만, 스테이블 디퓨전처럼 무료로 쓸 수 있는 모델이 있어 구글 코랩 등에서 실행해볼 수 있다고 설명합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗