AI VIDEO BRIEFING

멀티모달 AI 작동 원리 총정리: 임베딩 정렬부터 CLIP·플라밍고까지

이미지·텍스트·오디오를 한데 묶는 멀티모달 AI의 기본 원리를 정렬·대조학습·마스킹·통합학습 관점에서 설명하고, CLIP·이미지바인드·플라밍고 등 대표 연구를 정리했다.

출처: Neural Breakdown with AVB2023년 5월 27일AI 보조 요약

멀티모달 AI는 어떻게 보고 듣고 쓰는가: 핵심 원리와 대표 모델 정리 영상 대표 이미지

핵심 메시지

멀티모달 AI의 핵심은 텍스트·이미지·오디오 등 서로 다른 입력을 하나의 '공동 표현 공간'에 정렬하는 것이다.
각 모달리티를 전용 신경망(텍스트는 트랜스포머, 이미지는 CNN·비전 트랜스포머 등)으로 임베딩한 뒤 융합 단계에서 합친다.
대조학습 기반의 CLIP과 이미지바인드는 짝지어진 데이터를 가깝게, 무관한 데이터를 멀게 학습해 교차검색과 벡터 연산을 가능하게 한다.
이미 학습된 대형 언어모델의 지식을 버리지 않으려고, 프로즌·플라밍고는 LLM 가중치를 고정하고 일부 층만 새로 학습시킨다.
팜-E처럼 로봇의 상태 정보까지 입력에 포함하는 '체화형' 멀티모달 모델은 행동 계획과 실시간 대응으로 확장되고 있다.

쉽게 이해하기

멀티모달 AI는 텍스트와 시각 정보를 함께 다뤄 이미지·영상 검색, 캡션 생성, 이미지 속 객체를 텍스트로 찾는 시각적 그라운딩, 입력된 이미지·영상에 대해 질문에 답하는 시각적 질의응답 같은 작업을 수행한다. 메타의 '세그먼트 애니씽' 모델은 텍스트, 바운딩 박스, 마우스 클릭 등 여러 입력으로 이미지의 특정 부분을 분할할 수 있다.

응용 사례도 인상적이다. 한 신경과학 논문은 기능적 MRI 스캔과 GPT 모델을 결합해, 사람이 듣는 소리를 바탕으로 그 사람이 무엇을 떠올리는지 약 절반의 확률로 자연어로 추측해냈다. 또 'Be My Eyes' 기술은 GPT-4를 활용해 시각장애인에게 주변 상황을 음성으로 설명해 준다.

기술적으로 멀티모달 모델은 먼저 각 입력 모달리티를 적절한 신경망으로 따로 임베딩한다. 문장은 RNN이나 트랜스포머로, 이미지는 CNN이나 비전 트랜스포머로, 오디오는 멜 스펙트로그램으로 변환하는 식이다. 그다음 융합 단계에서 이 단일 모달 임베딩들을 더하기·곱하기·이어붙이기·외적, 혹은 또 다른 신경망으로 합쳐 교차 상호작용이 가능한 공동 표현 공간을 만든다.

정렬 방식은 크게 세 갈래다. 첫째 판별 학습은 모달리티 간 유사성을 찾도록 훈련한다. 2014년 한 연구는 플리커30k(이미지 3만 장과 캡션)에서 텍스트는 LSTM, 이미지는 CNN으로 임베딩하고 대조학습으로 정렬했다. 대조학습은 짝이 맞는 이미지-텍스트 쌍의 유사도는 높이고 안 맞는 쌍은 낮춰, '항해'라는 텍스트로 검색하면 항해 이미지가 나오고, 비행기 이미지에서 '비행기' 텍스트를 빼고 '새' 텍스트를 더하면 새 이미지가 나오는 벡터 연산까지 보여줬다.

둘째 마스킹 기반 학습(비주얼버트, 빌버트)은 이미지를 영역으로 나누고 설명문의 일부 토큰을 가린 뒤 복원하게 한다. 셋째 통합 학습(BLIP, HERO, VL-T5)은 여러 데이터셋과 과제를 하나의 모델로 함께 학습해 범용 임베딩을 얻는다. 한편 프로즌과 플라밍고는 이미 학습된 LLM의 백과사전적 지식을 '파국적 망각' 없이 활용하기 위해 LLM 가중치는 얼리고 비전 인코더나 새 교차어텐션 층만 학습시킨다.

주요 인사이트

서로 다른 감각 정보를 같은 좌표계(공동 표현 공간)에 놓는다는 발상이 멀티모달 AI의 출발점이며, 이 정렬이 잘 되면 이미지로 소리를, 소리로 이미지를 찾는 교차검색이 가능해진다.
메타의 이미지바인드는 모든 모달리티가 동시에 짝지어진 거대한 데이터셋을 구하기 어렵다는 현실을 우회한다. 이미지를 매개로 텍스트·오디오·깊이·열지도 등을 각각 정렬하면, 직접 정렬하지 않은 오디오와 텍스트까지 자연스럽게 정렬된다.
대형 LLM을 작은 이미지-캡션 데이터로 미세조정하면 기존 지식을 잊는 '파국적 망각'이 생긴다. 가중치를 고정하고 주변에 새 층을 끼워 넣는 플라밍고식 접근은 지식을 지키면서 시각 능력을 더하는 영리한 절충안이다.
플라밍고의 퍼시버 네트워크는 임의 길이의 시각 입력을 고정 길이로 압축해, LLM이 고해상도 이미지·영상도 다룰 수 있게 한다. 입력 크기를 해상도와 무관하게 만든다는 점이 핵심이다.
구글의 팜-E는 멀티모달을 로봇으로 확장해, 물체의 크기·색·위치 같은 상태 벡터까지 입력으로 받아 행동 계획을 세우고 예기치 못한 방해에도 대응한다. 멀티모달 입력이 로봇 산업의 작동 방식을 바꿀 수 있음을 시사한다.

자주 묻는 질문

멀티모달 AI가 서로 다른 입력을 이해하는 기본 원리는 무엇인가?

각 모달리티(텍스트·이미지·오디오 등)를 전용 신경망으로 따로 임베딩한 뒤, 융합 단계에서 하나의 공동 표현 공간으로 합쳐 서로 정렬한다. 이렇게 정렬된 공간에서 모달리티들이 서로 보완하며 상호작용한다.

대조학습이란 무엇이며 왜 중요한가?

짝이 맞는 이미지-텍스트 쌍의 임베딩 유사도(내적)는 높이고 안 맞는 쌍은 낮추는 기법이다. 이를 통해 짝지어진 텍스트와 이미지가 표현 공간에서 가까워져, 텍스트로 이미지를 찾는 교차검색이나 임베딩 벡터 연산이 가능해진다. CLIP은 4억 개 이미지-텍스트 쌍으로 이 방식을 적용해 제로샷 학습을 보여줬다.

이미 학습된 LLM을 멀티모달에 쓸 때 생기는 문제는 무엇인가?

수 기가바이트 텍스트로 학습한 LLM을 작고 잡음 많은 이미지-캡션 데이터로 미세조정하면, 사전학습에서 익힌 지식을 잊는 '파국적 망각'이 생길 수 있다. 프로즌은 LLM 가중치를 고정하고 비전 인코더만 학습시켜 이 문제를 피했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗