AI VIDEO BRIEFING
멀티모달 AI 작동 원리 총정리: 임베딩 정렬부터 CLIP·플라밍고까지
이미지·텍스트·오디오를 한데 묶는 멀티모달 AI의 기본 원리를 정렬·대조학습·마스킹·통합학습 관점에서 설명하고, CLIP·이미지바인드·플라밍고 등 대표 연구를 정리했다.

핵심 메시지
쉽게 이해하기
멀티모달 AI는 텍스트와 시각 정보를 함께 다뤄 이미지·영상 검색, 캡션 생성, 이미지 속 객체를 텍스트로 찾는 시각적 그라운딩, 입력된 이미지·영상에 대해 질문에 답하는 시각적 질의응답 같은 작업을 수행한다. 메타의 '세그먼트 애니씽' 모델은 텍스트, 바운딩 박스, 마우스 클릭 등 여러 입력으로 이미지의 특정 부분을 분할할 수 있다.
응용 사례도 인상적이다. 한 신경과학 논문은 기능적 MRI 스캔과 GPT 모델을 결합해, 사람이 듣는 소리를 바탕으로 그 사람이 무엇을 떠올리는지 약 절반의 확률로 자연어로 추측해냈다. 또 'Be My Eyes' 기술은 GPT-4를 활용해 시각장애인에게 주변 상황을 음성으로 설명해 준다.
기술적으로 멀티모달 모델은 먼저 각 입력 모달리티를 적절한 신경망으로 따로 임베딩한다. 문장은 RNN이나 트랜스포머로, 이미지는 CNN이나 비전 트랜스포머로, 오디오는 멜 스펙트로그램으로 변환하는 식이다. 그다음 융합 단계에서 이 단일 모달 임베딩들을 더하기·곱하기·이어붙이기·외적, 혹은 또 다른 신경망으로 합쳐 교차 상호작용이 가능한 공동 표현 공간을 만든다.
정렬 방식은 크게 세 갈래다. 첫째 판별 학습은 모달리티 간 유사성을 찾도록 훈련한다. 2014년 한 연구는 플리커30k(이미지 3만 장과 캡션)에서 텍스트는 LSTM, 이미지는 CNN으로 임베딩하고 대조학습으로 정렬했다. 대조학습은 짝이 맞는 이미지-텍스트 쌍의 유사도는 높이고 안 맞는 쌍은 낮춰, '항해'라는 텍스트로 검색하면 항해 이미지가 나오고, 비행기 이미지에서 '비행기' 텍스트를 빼고 '새' 텍스트를 더하면 새 이미지가 나오는 벡터 연산까지 보여줬다.
둘째 마스킹 기반 학습(비주얼버트, 빌버트)은 이미지를 영역으로 나누고 설명문의 일부 토큰을 가린 뒤 복원하게 한다. 셋째 통합 학습(BLIP, HERO, VL-T5)은 여러 데이터셋과 과제를 하나의 모델로 함께 학습해 범용 임베딩을 얻는다. 한편 프로즌과 플라밍고는 이미 학습된 LLM의 백과사전적 지식을 '파국적 망각' 없이 활용하기 위해 LLM 가중치는 얼리고 비전 인코더나 새 교차어텐션 층만 학습시킨다.
주요 인사이트
- 서로 다른 감각 정보를 같은 좌표계(공동 표현 공간)에 놓는다는 발상이 멀티모달 AI의 출발점이며, 이 정렬이 잘 되면 이미지로 소리를, 소리로 이미지를 찾는 교차검색이 가능해진다.
- 메타의 이미지바인드는 모든 모달리티가 동시에 짝지어진 거대한 데이터셋을 구하기 어렵다는 현실을 우회한다. 이미지를 매개로 텍스트·오디오·깊이·열지도 등을 각각 정렬하면, 직접 정렬하지 않은 오디오와 텍스트까지 자연스럽게 정렬된다.
- 대형 LLM을 작은 이미지-캡션 데이터로 미세조정하면 기존 지식을 잊는 '파국적 망각'이 생긴다. 가중치를 고정하고 주변에 새 층을 끼워 넣는 플라밍고식 접근은 지식을 지키면서 시각 능력을 더하는 영리한 절충안이다.
- 플라밍고의 퍼시버 네트워크는 임의 길이의 시각 입력을 고정 길이로 압축해, LLM이 고해상도 이미지·영상도 다룰 수 있게 한다. 입력 크기를 해상도와 무관하게 만든다는 점이 핵심이다.
- 구글의 팜-E는 멀티모달을 로봇으로 확장해, 물체의 크기·색·위치 같은 상태 벡터까지 입력으로 받아 행동 계획을 세우고 예기치 못한 방해에도 대응한다. 멀티모달 입력이 로봇 산업의 작동 방식을 바꿀 수 있음을 시사한다.
자주 묻는 질문
멀티모달 AI가 서로 다른 입력을 이해하는 기본 원리는 무엇인가?
각 모달리티(텍스트·이미지·오디오 등)를 전용 신경망으로 따로 임베딩한 뒤, 융합 단계에서 하나의 공동 표현 공간으로 합쳐 서로 정렬한다. 이렇게 정렬된 공간에서 모달리티들이 서로 보완하며 상호작용한다.
대조학습이란 무엇이며 왜 중요한가?
짝이 맞는 이미지-텍스트 쌍의 임베딩 유사도(내적)는 높이고 안 맞는 쌍은 낮추는 기법이다. 이를 통해 짝지어진 텍스트와 이미지가 표현 공간에서 가까워져, 텍스트로 이미지를 찾는 교차검색이나 임베딩 벡터 연산이 가능해진다. CLIP은 4억 개 이미지-텍스트 쌍으로 이 방식을 적용해 제로샷 학습을 보여줬다.
이미 학습된 LLM을 멀티모달에 쓸 때 생기는 문제는 무엇인가?
수 기가바이트 텍스트로 학습한 LLM을 작고 잡음 많은 이미지-캡션 데이터로 미세조정하면, 사전학습에서 익힌 지식을 잊는 '파국적 망각'이 생길 수 있다. 프로즌은 LLM 가중치를 고정하고 비전 인코더만 학습시켜 이 문제를 피했다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗