AI VIDEO BRIEFING

AI 이미지 생성 원리: GAN·디퓨전 모델·NLP가 만드는 그림

GAN의 탄생부터 텍스트 이해를 위한 NLP와 잠재 공간, 그리고 오늘날 달리·미드저니·스테이블 디퓨전을 움직이는 디퓨전 모델까지 AI 이미지 생성의 원리를 정리했다.

출처: AltexSoft | TravelTech, AI & Software Engineering2024년 1월 24일AI 보조 요약

달리·스테이블 디퓨전·미드저니는 어떻게 그림을 그리나: GAN에서 디퓨전 모델까지 영상 대표 이미지

핵심 메시지

초기 AI 이미지 생성은 생성자와 판별자를 경쟁시키는 GAN에서 출발했다.
텍스트로 이미지를 만들려면 단어에 맥락을 부여하는 NLP와 잠재 공간 개념이 필요하다.
오늘날의 도구들은 이미지를 노이즈로 만들었다가 되돌리는 디퓨전 모델로 작동한다.
달리·미드저니·스테이블 디퓨전은 같은 디퓨전 기술을 쓰지만 데이터셋과 임베딩 차이로 결과가 다르다.

쉽게 이해하기

사실적인 이미지를 만드는 최초의 기술은 GAN(생성적 적대 신경망)이었다. 2014년 이안 굿펠로가 술집에서 떠올린 아이디어로, 두 신경망을 서로 경쟁시키는 발상이다. 생성자는 사실적인 이미지를 만들려 하고, 판별자는 진짜와 가짜를 구분하려 한다. 생성자가 판별자도 사람도 속일 만큼 좋아지면 학습이 성공한 것이다.

GAN은 얼굴·동물·풍경 생성이나 이미지 편집(나이 들게 하기, 말을 얼룩말로 바꾸기, 화풍 입히기)에 강했지만, 복잡한 문장 프롬프트로부터 이미지를 만들지는 못했다. 그래서 사람의 말을 이해하는 자연어 처리(NLP)가 필요해진다. '초록 장화를 신고 우산을 든 오리'를 그리려면 장화는 신는 것이고 우산은 머리 위로 드는 것이라는 맥락까지 이해해야 한다.

이를 위해 이미지와 캡션 쌍으로 모델을 학습시킨다. 각 단어는 다차원 공간의 좌표(벡터)로 표현되고, '오리'와 '오리 새끼'처럼 의미가 비슷한 단어는 가까이 놓인다. 수많은 오리 이미지의 특성을 압축한 잠재 공간을 두면, 모델은 특정 이미지를 복사하지 않고 포착한 특성들을 조합해 완전히 새로운 오리를 만들어낸다.

GAN을 밀어낸 최신 기술이 디퓨전 모델이다. 물리학자 야샤 솔-딕스타인이 비평형 열역학에서 영감을 받아 고안했다. 향수가 방 안에 퍼지듯 이미지에 점점 노이즈를 더해 완전한 노이즈로 만든 뒤, 그 과정을 거꾸로 되돌리도록 학습한다. 모델은 각 단계에서 덜 노이즈한 이미지를 예측하며, 반복할수록 새로운 이미지를 정교하게 빚어낸다.

이 기술을 쓰는 대표 도구가 달리, 미드저니, 스테이블 디퓨전이다. 달리 3는 언어 모델로 더 상세한 캡션을 생성해 데이터셋을 개선했고, 미드저니는 사용자 피드백을 학습에 활용한다. 스테이블 디퓨전은 잠재 디퓨전 모델 개념을 도입해 생성 속도를 높였고, 유일하게 오픈소스라 직접 내 컴퓨터에서 구동하고 커스텀 모델까지 쓸 수 있다.

주요 인사이트

GAN은 '상상력을 가진 AI'로 불린다. 판별자라는 적과 경쟁하면서 학습 데이터를 그대로 닮지 않으면서도 진짜 같아 보이는 완전히 새로운 이미지를 만들어내기 때문이다.
텍스트-이미지 생성의 핵심은 단어를 기계어로 번역하는 것이 아니라, 각 단어에 그 대상이 어떻게 그려져야 하는지를 알려주는 맥락과 특성을 채워 넣는 데 있다.
잠재 공간으로 차원을 줄이면 제각각인 수천 장의 오리 이미지가 하나의 '오리라는 개념'으로 모이고, 모델은 이 개념에서 새 이미지를 합성한다.
세 도구가 같은 디퓨전 기술을 써도 결과가 다른 이유는 데이터셋과 임베딩 과정의 차이 때문이며, 숙련된 사용자는 어떤 도구로 만든 이미지인지 추측하기도 한다.

자주 묻는 질문

GAN은 어떻게 작동하나?

생성자와 판별자라는 두 신경망을 경쟁시킨다. 생성자는 무작위 노이즈에서 시작해 사실적인 이미지를 만들려 하고, 판별자는 진짜와 생성된 이미지를 구분하려 한다. 서로 실수에서 배우며 발전해, 생성자가 판별자와 사람을 모두 속일 만큼 좋아지면 성공이다.

디퓨전 모델은 왜 물리학과 연결되나?

고안자인 물리학자 솔-딕스타인이 향수가 방에 퍼지는 확산 현상과 비평형 열역학에서 영감을 얻었기 때문이다. 이미지에 노이즈를 더해 퍼뜨렸다가 그 과정을 되돌려 이미지를 복원하는 방식이 확산 원리를 닮았다.

달리·미드저니·스테이블 디퓨전의 차이는?

모두 디퓨전 기술을 쓰지만 데이터셋과 임베딩 과정이 달라 결과물이 다르다. 달리 3는 언어 모델로 상세 캡션을 생성하고, 미드저니는 사용자 피드백을 활용하며, 스테이블 디퓨전은 잠재 디퓨전을 도입해 빠르고 유일하게 오픈소스로 공개돼 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗