AI VIDEO BRIEFING

텍스트-투-이미지 생성 원리 완전정리: 확산 모델과 구글 파티(Parti)로 쉽게 이해하기

구글 리서치의 영상 시리즈 '히든 레이어스'가 텍스트만으로 이미지를 만드는 AI의 작동 방식을 일반 독자도 이해하도록 쉽게 설명합니다. 노이즈를 걷어내는 확산 모델과, 번역식 접근인 파티(Parti)의 원리를 나눠서 풀어냅니다.

출처: Google Research2023년 1월 19일AI 보조 요약

구글 리서치가 설명하는 '글자를 그림으로': 확산 모델과 파티(Parti)의 원리 영상 대표 이미지

핵심 메시지

확산 모델은 이미지에 노이즈를 조금씩 더해가며 망가뜨린 뒤, 그 과정을 거꾸로 되돌려(노이즈 제거) 원본을 복원하도록 학습한다.
노이즈를 만들 때 텍스트 인코더로 문장 라벨을 함께 붙이면, 모델은 '텍스트의 안내를 받아' 노이즈를 이미지로 되돌리는 법을 배운다.
학습이 끝나면 무작위 노이즈와 처음 보는 문장만으로 완전히 새로운 이미지를 만들어내고, 별도 모델로 해상도와 디테일을 키운다.
구글 리서치의 파티(Parti)는 확산 대신 번역에 쓰이는 시퀀스-투-시퀀스 방식으로, 문장을 이미지 토큰 열로 예측해 재조합한다.
파라미터가 큰 파티 모델일수록 문장을 더 정교하게 이해해, 표지판에 적힌 글자까지 정확히 그려낼 수 있었다.

쉽게 이해하기

구글 리서치의 영상 시리즈 '히든 레이어스'에서 진행자 로렌스는 텍스트만으로 이미지를 만드는 모델의 원리를 일반인도 이해할 수 있게 소개한다. 우리가 흔히 보는 AI 생성 이미지들이 어떻게 문장 하나에서 태어나는지, 그 뒤에 있는 과학을 짧게 훑는다.

핵심 아이디어는 '확산(diffusion)'이다. 먼저 원본 이미지에 노이즈를 반복적으로 조금씩 더해 점점 지저분하게 만든 다음, 모델에게 이 과정을 거꾸로 되돌려 원래 이미지를 복원하는 '노이즈 제거'를 학습시킨다. 그러면 무작위 노이즈에서 시작해도 학습한 자연스러운 이미지의 패턴에 가깝게 복원할 수 있게 된다.

여기에 텍스트 인코더로 노이즈 이미지에 문장 라벨을 붙이는 단계가 결정적이다. 모델은 이제 '이 문장에 해당하는' 이미지를 복원하도록 배우고, 학습이 끝나면 무작위 노이즈와 한 번도 본 적 없는 새 문장을 받아 새로운 이미지를 만들어낸다. 처음 나오는 이미지는 작기 때문에 다른 모델로 해상도를 올리고 세부 묘사를 더한다.

확산만이 정답은 아니다. 구글 리서치는 파티(Parti, Pathways Autoregressive Text-to-image)에서 번역에 쓰이던 시퀀스-투-시퀀스 모델을 가져와, 문장(이미지 캡션)을 이미지의 시각 내용을 나타내는 토큰들의 열로 매핑하도록 학습시켰다. 충분한 예시를 학습하면 새 문장에 대한 이미지 토큰을 예측해 그림으로 재조합할 수 있다.

모델 크기를 키우자 결과 품질이 눈에 띄게 좋아졌다. 예컨대 '캥거루가 welcome friends라고 적힌 표지판을 든' 캡션에서, 작은 모델들도 캥거루 자체는 잘 그렸지만 표지판 글자까지 정확히 써낸 것은 파라미터가 더 큰 모델이었다. 로렌스는 직접 체험해 볼 수 있는 'AI 테스트 키친' 앱도 소개한다.

주요 인사이트

'노이즈를 더했다가 거꾸로 걷어낸다'는 단순한 발상을 대규모로 반복 적용한 것이 오늘날 이미지 생성의 놀라운 결과를 만든다.
텍스트가 하는 일은 노이즈 제거 과정을 '안내'하는 것이다. 문장이 곧 최종 이미지로 가는 길잡이 역할을 한다.
같은 문제라도 확산과 자기회귀(번역식)라는 서로 다른 접근이 공존하며, 연구는 더 나은 알고리즘을 계속 찾아간다.
모델 규모가 커질수록 문장의 미세한 의미까지 반영해, 표지판 글자처럼 까다로운 디테일도 재현할 수 있다.

자주 묻는 질문

확산 모델은 어떻게 학습하나요?

원본 이미지에 노이즈를 조금씩 반복해서 더해 망가뜨린 뒤, 그 과정을 거꾸로 되돌려 노이즈를 제거하고 원본을 복원하도록 모델을 훈련합니다. 그러면 무작위 노이즈에서 시작해도 자연스러운 이미지를 만들어낼 수 있습니다.

텍스트 문장은 이미지 생성에서 어떤 역할을 하나요?

노이즈 이미지에 텍스트 인코더로 문장 라벨을 붙이면, 모델은 그 문장의 안내를 받아 노이즈를 해당 이미지로 복원하도록 학습합니다. 그래서 문장이 최종 이미지를 결정하는 길잡이가 됩니다.

파티(Parti)는 확산 모델과 무엇이 다른가요?

파티는 확산 대신 번역에 쓰이는 시퀀스-투-시퀀스 방식을 사용합니다. 문장을 이미지의 시각 내용을 나타내는 토큰 열로 예측한 뒤 이를 재조합해 이미지를 만듭니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗