AI VIDEO BRIEFING

디퓨전 vs 자기회귀 모델 — 이미지 생성 AI의 작동 원리와 속도 차이

이미지 생성 AI가 어떻게 무에서 그림을 만들어내는지, 자기회귀 모델과 디퓨전 모델의 차이를 통해 설명한다. 생성도 결국 예측(곡선 맞추기)이라는 핵심 아이디어를 짚는다.

출처: Algorithmic Simplicity2024년 2월 16일AI 보조 요약

디퓨전 모델은 왜 자기회귀보다 빠를까: 생성형 AI는 결국 곡선 맞추기다 영상 대표 이미지

핵심 메시지

생성형 AI 모델은 본질적으로 예측기이며, 새로운 그림을 만드는 일도 '곡선 맞추기' 문제로 환원된다.
여러 정답을 평균 내면 이미지가 흐릿해지므로, 한 번에 한 픽셀씩 예측하는 자기회귀 방식이 등장했다. ChatGPT도 자기회귀 모델이다.
자기회귀는 픽셀 수만큼 신경망을 돌려야 해 수백만 번 연산이 필요하고, 큰 이미지에는 너무 느리다.
정보를 한 번에 넓게 제거할수록 적은 단계로 생성할 수 있는데, 픽셀을 지우는 대신 이미지 전체에 노이즈를 더하는 것이 가장 넓은 제거 방식이다.
이렇게 노이즈를 더했다 되돌리는 방식이 디퓨전 모델이며, 자기회귀가 수백만 단계 걸릴 일을 약 100단계로 해낸다.

쉽게 이해하기

영상은 '생성형 AI는 어떻게 무에서 이미지를 만들까'라는 질문에서 출발한다. 신경망이 잘하는 일은 예측, 즉 입력을 출력으로 잇는 곡선 맞추기다. 그런데 발표자는 그림을 만드는 창의적 작업조차 사실은 예측 문제로 바꿀 수 있다고 말한다.

단순히 검은 이미지를 입력으로 주고 학습 이미지를 출력으로 예측하게 하면 결과는 흐릿한 죽이 되어버린다. 같은 입력에 가능한 정답이 여러 개일 때 예측기는 그 평균을 내놓기 때문이다. 분류에서는 '고양이 0.5, 개 0.5' 같은 평균이 의미 있지만, 이미지를 평균 내면 형체가 사라진다.

해결책은 한 번에 한 픽셀씩 채우는 것이다. 픽셀 하나의 평균값은 여전히 하나의 색이라 흐려지지 않는다. 빠진 픽셀을 하나씩 차례로 예측해 검은 이미지에서부터 완성해 가면 그럴듯한 그림이 만들어진다. 매번 같은 그림이 나오지 않도록, 예측기가 내놓는 확률 분포에서 무작위로 표본을 뽑아 다양성을 준다. 이렇게 한 원소씩 제거했다 되돌리는 모델이 자기회귀이며, 1927년 흑점 주기 모델링까지 거슬러 올라간다. ChatGPT 역시 다음 단어의 확률 분포를 출력하는 자기회귀 모델이다.

문제는 속도다. 자기회귀는 원소 하나마다 신경망을 한 번씩 돌려야 하는데, 큰 이미지는 픽셀이 수천만 개에 이른다. 한 번에 여러 픽셀을 예측하면 빨라지지만, 서로 관련된 픽셀을 동시에 정하면 다시 평균의 흐림 현상이 나타난다. 그래서 가까운(서로 관련된) 픽셀을 덩어리로 지우는 것은 최악이고, 멀리 떨어진(서로 독립적인) 픽셀을 흩뿌리듯 무작위로 제거하는 편이 같은 품질에서 더 많이 지울 수 있다.

이 아이디어의 끝에 디퓨전이 있다. 픽셀을 완전히 지우는 대신 약간의 노이즈를 더하면 정보를 '부분만' 제거할 수 있고, 이미지 전체에 한 번에 노이즈를 더하는 것이 정보를 가장 넓게 흩어 제거하는 방법이다. 원래 값을 조금 줄인 뒤 노이즈를 더하는 식으로 반복하면 결국 순수한 노이즈 분포로 수렴해, 그 노이즈에서부터 생성을 시작할 수 있다. 이것이 디노이징 디퓨전 모델이며, 형태는 자기회귀와 똑같고 정보를 제거하는 방식만 다르다.

주요 인사이트

생성과 예측은 별개가 아니다. 라벨을 사람이 붙인 분류명이 아니라 '원본 이미지의 픽셀'로 바꾸면, 같은 곡선 맞추기 기계가 생성기로 변한다. 덕분에 사람이 일일이 라벨을 달 필요 없이 인터넷의 라벨 없는 이미지를 그대로 학습에 쓸 수 있다.
속도와 품질은 맞바꿈 관계다. 한 번에 더 많이 생성하면 연산은 줄지만, 예측값들이 서로 관련될수록 품질이 떨어진다. 핵심은 '서로 독립적인' 부분을 한꺼번에 예측하게 만드는 것이다.
실무에서는 단계마다 다른 신경망을 쓰지 않고 하나의 신경망을 공유하며, 자기회귀에는 학습을 빠르게 해주는 인과(causal) 구조를 거의 항상 사용한다. 디퓨전에는 인과 구조를 쓸 수 없어 무작위 단계로 학습한다.
디퓨전은 보통 노이즈를 예측하도록 학습시키고, 텍스트 프롬프트는 매 단계의 추가 입력으로 넣는다. 프롬프트를 줬을 때와 안 줬을 때의 예측 차이를 이용하는 '분류기 없는 가이던스'로 프롬프트를 더 충실히 따르게 만든다.

자주 묻는 질문

왜 검은 이미지 하나로 그림 전체를 한 번에 예측하면 안 되나?

같은 입력에 가능한 정답 이미지가 여러 개라 예측기가 그 평균을 출력하는데, 이미지들의 평균은 의미 있는 그림이 아니라 흐릿한 죽이 되기 때문이다. 그래서 한 번에 하나(또는 서로 독립적인 일부)씩 예측한다.

자기회귀 모델과 디퓨전 모델의 근본 차이는?

전체 형태는 같고 정보를 제거하는 방식만 다르다. 자기회귀는 픽셀을 하나씩 제거·복원하고, 디퓨전은 이미지 전체에 노이즈를 더했다 걷어낸다. 노이즈는 정보를 가장 넓게 흩어 제거하므로 더 적은 단계로 생성할 수 있다.

디퓨전은 자기회귀보다 얼마나 빠른가?

영상에 따르면 디퓨전은 약 100단계로 고품질 사진 같은 이미지를 만드는 반면, 같은 일을 자기회귀로 하면 수백만 단계가 필요하다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗