AI VIDEO BRIEFING

멀티모달 AI 작동 원리: 공유 벡터 공간과 네이티브 멀티모달리티 쉽게 이해하기

멀티모달 AI가 텍스트와 이미지, 영상을 어떻게 함께 처리하는지 IBM 기술 강연을 바탕으로 정리했다. 피처 융합과 공유 벡터 공간 방식의 차이, 영상의 시간 차원 처리까지 핵심 개념을 짚는다.

출처: IBM Technology2026년 4월 6일AI 보조 요약

멀티모달 AI는 어떻게 작동할까: 텍스트·이미지·영상을 한 공간에서 이해하는 원리 영상 대표 이미지

핵심 메시지

멀티모달 AI는 텍스트·이미지·음성·영상 등 여러 데이터 양식(모달리티)을 함께 받아들이거나 생성하는 모델을 말한다.
초기 방식인 '피처 수준 융합'은 비전 인코더가 이미지를 수치 벡터로 요약해 LLM에 넘기지만, 그 과정에서 정보가 손실될 수 있다.
오늘날의 '네이티브 멀티모달리티'는 모든 양식을 하나의 공유 벡터 공간에 함께 임베딩해 동시에 추론한다.
영상은 시간 차원이 있어, 최신 모델은 프레임을 따로 보는 대신 시공간 패치(3D 큐브)로 움직임 자체를 토큰에 담는다.
모든 양식이 같은 공간에 있기 때문에 어떤 입력이든 받아 어떤 출력이든 만들어내는 'any-to-any' 생성이 가능하다.

쉽게 이해하기

'모달리티'란 데이터의 종류를 뜻한다. 텍스트만 토큰화해 입력받고 텍스트만 내놓는 모델은 단일 모달리티 LLM이다. 반면 텍스트에 더해 이미지, 음성, 라이다, 열화상 같은 다른 양식을 함께 다루는 모델이 멀티모달 AI다. 예컨대 휴대폰 문제를 찍은 스크린샷과 짧은 설명을 함께 던지면, 멀티모달 모델이 둘을 같이 이해해 답한다.

초기 시스템은 '모듈형 피처 수준 융합' 방식을 썼다. 텍스트용 LLM 옆에 CLIP 같은 비전 인코더를 따로 두고, 이미지에서 특징을 뽑아 수치 배열로 만든 뒤 LLM이 읽을 수 있는 형태로 투영해 넘긴다. 문제는 LLM이 원본 이미지가 아니라 '요약된 숫자'만 본다는 점이다. 그래서 정보가 일부 사라질 수 있지만, 비용이 싸고 부품 교체가 쉬워 특정 기업용 작업에는 여전히 쓰인다.

더 진보한 방식은 네이티브 멀티모달리티다. 별도 모델을 이어 붙이는 대신, 모든 양식을 처음부터 하나의 고차원 '공유 벡터 공간'에 토큰화해 임베딩한다. 단어 'cat'이 공간 속 한 점이 되듯, 이미지는 작은 패치로 잘려 각 패치가 점이 되고, 음성도 잘게 나뉘어 임베딩된다. 핵심은 '공유'다. 같은 공간에 있으니 모델이 서로 다른 체계를 번역할 필요가 없다.

공유 공간 방식은 비전 인코더 방식을 앞선다. 피처 융합에서는 인코더가 질문을 알기도 전에 이미지를 처리해 필요한 디테일을 압축해버릴 수 있다. 반면 공유 공간에서는 모델이 질문과 이미지를 동시에 보며 주의를 기울이므로, 스크린샷 구석의 작은 아이콘처럼 세밀한 부분에도 초점을 맞출 수 있다.

영상에는 시간이라는 차원이 더해진다. 초기에는 몇 개 프레임만 뽑아 비전 인코더에 넣었지만, 정지 화면 하나로는 물병을 내려놓는지 집어 드는지 알 수 없다. 최신 네이티브 모델은 시공간 패치, 즉 짧은 시간 구간을 가로지르는 3D 정보 큐브로 영상을 임베딩해 움직임 자체를 토큰에 담는다. 나아가 같은 공유 공간 덕분에 입력뿐 아니라 출력도 여러 양식을 넘나들며 생성할 수 있다.

주요 인사이트

'정보 손실'이 핵심 분기점이다. 이미지를 미리 요약하느냐(피처 융합), 원신호에 가깝게 함께 추론하느냐(공유 공간)가 성능 차이를 만든다.
공유 벡터 공간에서는 고양이 사진이 단어 'cat' 근처에 놓인다. 의미가 비슷하면 양식이 달라도 공간상 가깝다는 점이 멀티모달 추론의 토대다.
영상 이해의 관건은 시간이다. 움직임을 두 이미지 비교로 추측하지 않고 토큰 자체에 녹여 넣는 시공간 패치가 진짜 차이를 만든다.
any-to-any 생성은 단일 공유 공간의 자연스러운 결과다. 넥타이 매는 법을 텍스트로 설명하고 곧바로 영상 클립까지 생성하는 식이다.
피처 융합이 완전히 사라진 것은 아니다. 저렴하고 모듈 교체가 쉬워 특정 기업용 작업에는 여전히 합리적인 선택지로 남아 있다.

자주 묻는 질문

피처 수준 융합과 네이티브 멀티모달리티의 차이는 무엇인가요?

피처 융합은 비전 인코더가 이미지를 수치 벡터로 추출해 LLM의 처리 흐름 중간에 주입하는 방식으로, LLM은 요약된 숫자만 봅니다. 네이티브 멀티모달리티는 텍스트·이미지·음성을 모두 하나의 공유 벡터 공간에 임베딩해 함께 추론하므로 정보 손실이 적고 질문과 이미지를 동시에 살펴봅니다.

멀티모달 모델은 영상의 움직임을 어떻게 처리하나요?

초기 방식은 영상에서 몇 프레임만 뽑아 처리해 동작의 흐름을 놓치기 쉬웠습니다. 최신 네이티브 모델은 짧은 시간 구간을 포함하는 시공간 패치(3D 큐브)로 영상을 임베딩해, 움직임 자체가 토큰에 담기도록 합니다.

'any-to-any 생성'이란 무엇인가요?

모든 양식이 같은 공유 벡터 공간에 존재하기 때문에, 모델이 텍스트·이미지·영상 등 어떤 조합의 입력이든 받아 어떤 조합의 출력이든 만들어낼 수 있는 것을 말합니다. 예를 들어 넥타이 매는 법을 텍스트로 설명하면서 동시에 짧은 영상 클립을 생성할 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗