AI VIDEO BRIEFING

멀티모달 AI 작동 원리: DALL-E·CLIP·임베딩으로 텍스트와 이미지를 잇는 법

텍스트로 이미지를 만드는 DALL-E와 CLIP 학습 원리부터, ChatGPT가 여러 모달리티를 다루는 방식과 '멀티모달 모델 vs 멀티모달 인터페이스'의 차이까지 쉽게 풀어 설명합니다.

출처: AssemblyAI2023년 12월 5일AI 보조 요약

멀티모달 AI는 어떻게 작동하나: 텍스트·이미지·음성을 잇는 의미 공간 영상 대표 이미지

핵심 메시지

텍스트·오디오·이미지처럼 서로 다른 종류의 데이터를 다루는 AI의 능력을 멀티모달리티라 부르며, 다양한 모달리티의 모델도 대체로 비슷한 작동 원리를 공유한다.
단어 '여자'와 여자의 이미지가 같은 의미의 두 표현이듯, 멀티모달 모델은 표현 자체가 아니라 임베딩 모델로 의미를 벡터로 바꿔 의미를 직접 다룬다.
DALL-E 2는 CLIP으로 임베더를 학습하는데, 이미지-캡션 쌍의 코사인 유사도는 키우고 서로 다른 개념의 유사도는 줄여 텍스트와 이미지를 같은 의미 공간에 정렬한다.
ChatGPT는 단일 멀티모달 모델이 아니라 LLM ChatGPT에 DALL-E 3, Whisper, 음성 합성 모델 등을 엮은 파이프라인이며, 텍스트가 모달리티를 잇는 공통 매개가 된다.
그래서 'ChatGPT'는 LLM ChatGPT와 UI ChatGPT라는 두 가지를 가리키며, 멀티모달 모델과 멀티모달 인터페이스를 구분하는 것이 중요하다.

쉽게 이해하기

영상은 ChatGPT가 이미지를 처리하게 된 사례로 문을 연다. 발표자는 가입 폼을 손으로 그려 보여 주며 HTML·CSS·JavaScript 코드를 요청했고, 몇 초 만에 나온 코드는 브라우저에서 완벽히 작동했으며 다이어그램에 적은 'Instagram' 언급까지 반영했다. 질문을 던진 인터페이스조차 GPT가 작성했다고 말한다. 나아가 'A rhythmic East Coast boom bap hip hop beat' 같은 설명만으로 Music LM이 멜로디를 만든 예를 들며, 텍스트·오디오·이미지처럼 다른 종류의 데이터를 다루는 능력을 멀티모달리티라 정의한다.

설명은 먼저 DALL-E 같은 텍스트-이미지 모델로 시작한다. 현대 이미지 모델은 순수 가우시안 노이즈에서 이미지를 만드는 확산(diffusion) 모델에 기반하는데, 그대로는 무작위 이미지만 나와 제어가 어렵다. 텍스트-이미지 모델은 여기에 텍스트라는 모달리티를 더해 생성을 유도한다. 핵심은 '여자'라는 단어와 여자의 이미지가 같은 의미의 시각적·텍스트적 두 표현이라는 점이며, 모델은 표현 자체가 아니라 임베딩 모델로 의미를 벡터로 바꿔 의미를 직접 다룬다.

그 임베딩 모델은 어떻게 학습될까. DALL-E 2는 CLIP이라는 별도 모델로 임베더를 학습한다. 이미지와 캡션 데이터셋에서 각 쌍을 인코더로 벡터화한 뒤, 같은 개념(예: 사과, 의자, 개) 쌍의 코사인 유사도는 최대화하고 서로 다른 개념 쌍의 유사도는 최소화한다. 코사인 유사도는 벡터 사이 각도를 재는 거리 척도로, 이를 통해 텍스트와 이미지가 의미를 보존한 채 같은 공간에 매핑된다. 이미지를 만들 때 DALL-E 2는 입력 텍스트를 이 의미 공간에 임베딩하고, 텍스트 의미 벡터를 시각 의미 벡터로 옮긴 뒤 이를 디코딩하는데, 실제로는 U-Net으로 노이즈를 점진 제거하는 확산 모델을 이 의미 벡터로 조건화한다.

그렇다면 ChatGPT처럼 입력과 출력 모두 여러 모달리티를 다루는 모델은 어떨까. 발표자는 흥미로운 모호성을 든다. 형사가 범죄를 묘사한 뒤 '이런 범죄를 저지를 사람의 그림을 그려 달라'고 하면, 비유적으로 배경·동기를 그려 달라는 것인지 실제 얼굴 이미지를 그려 달라는 것인지 모델로선 알 수 없으며 사람조차 답이 갈린다. 여기서 'ChatGPT'가 두 가지를 가리킨다는 점이 핵심이다 — RLHF로 파인튜닝된 GPT인 LLM ChatGPT와, 사용자가 실제로 쓰는 웹 애플리케이션인 UI ChatGPT다.

출시 초기엔 둘이 일대일로 대응해 구분이 의미 없었지만, UI가 여러 모달리티를 받게 되면서 구분이 중요해졌다. UI는 내부에서 LLM ChatGPT만 쓰는 게 아니라 DALL-E 3, 아마도 Whisper, 그리고 음성 합성 모델을 함께 쓴다. 음성으로 '토끼를 그려 줘'라고 하면 Whisper가 음성을 텍스트로 바꾸고, LLM ChatGPT가 요청을 해석한 뒤, DALL-E 3가 이미지를 생성한다. 즉 오디오-이미지 단일 모델이 아니라 세 개의 멀티모달 모델을 엮은 파이프라인이며, 자연어의 표현력 덕에 텍스트가 모달리티들을 잇는 공통 매개가 된다. 발표자는 멀티모달 모델과 멀티모달 인터페이스의 구분을 이해하길 바란다며 마무리한다.

주요 인사이트

멀티모달 모델의 공통 원리는 '서로 다른 모달리티를 같은 의미 공간의 벡터로 바꾼다'는 것이며, 이 의미 공간 학습이 멀티모달리티가 작동하는 핵심이다.
CLIP은 같은 개념의 이미지-텍스트 쌍은 코사인 유사도를 높이고 다른 개념 쌍은 낮추는 대조 학습으로, 두 모달리티를 의미를 보존한 채 정렬한다.
텍스트-이미지 생성은 확산 모델을 그냥 돌리는 게 아니라, 텍스트에서 얻은 의미 벡터로 U-Net의 노이즈 제거 과정을 조건화해 특정 이미지를 만든다.
ChatGPT의 멀티모달 능력은 하나의 만능 모델이 아니라 Whisper·LLM·DALL-E 3를 잇는 파이프라인이며, 텍스트가 모달리티를 잇는 허브 역할을 한다.
'멀티모달 모델'과 '멀티모달 인터페이스'를 구분해야 한다 — 같은 'ChatGPT'라는 이름이 RLHF로 튜닝된 LLM과 웹 애플리케이션 UI라는 서로 다른 두 대상을 가리킨다.

자주 묻는 질문

멀티모달리티란 무엇인가요?

텍스트, 오디오, 이미지처럼 서로 다른 종류의 데이터를 함께 다루는 AI 모델의 능력을 뜻합니다. 영상은 그림을 코드로 바꾸거나 설명만으로 음악을 만드는 예를 듭니다.

CLIP은 어떻게 학습되나요?

이미지와 캡션 쌍을 각각 인코더로 벡터화한 뒤, 같은 개념 쌍의 코사인 유사도는 최대화하고 서로 다른 개념 쌍의 유사도는 최소화합니다. 이렇게 텍스트와 이미지가 의미를 보존한 채 같은 공간에 매핑됩니다.

ChatGPT는 하나의 멀티모달 모델인가요?

아닙니다. UI ChatGPT는 LLM ChatGPT 외에 DALL-E 3, 아마도 Whisper, 음성 합성 모델 등을 함께 쓰는 파이프라인입니다. 예컨대 음성→이미지 요청은 Whisper, LLM, DALL-E 3 세 모델을 거칩니다.

'LLM ChatGPT'와 'UI ChatGPT'는 어떻게 다른가요?

LLM ChatGPT는 RLHF로 파인튜닝된 GPT 모델 자체이고, UI ChatGPT는 사용자가 실제로 상호작용하는 웹 애플리케이션입니다. UI가 여러 모달리티를 받게 되면서 이 둘을 구분하는 것이 중요해졌습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗