AI VIDEO BRIEFING

멀티모달 융합 완전정리: MIT 강의로 보는 상호작용·저랭크·게이트 융합

MIT 멀티모달 강의를 바탕으로 여러 모달리티를 합치는 융합 기법을 정리한다. 중복·고유·시너지 상호작용부터 곱셈 융합, 저랭크 근사, 게이트 융합까지 다룬다.

출처: Paul Liang2025년 8월 27일AI 보조 요약

여러 감각을 하나로: MIT 강의로 배우는 멀티모달 융합의 원리 영상 대표 이미지

핵심 메시지

멀티모달 융합의 목표는 여러 모달리티를 합쳐 정보가 어떻게 결합되는지를 담은 하나의 결합 표현을 학습하는 것이다.
모달리티 간 상호작용은 중복(공통 정보), 고유(한쪽에만 있는 정보), 시너지(합칠 때 비로소 생기는 정보)로 나뉘며, 대조학습 기반 정렬은 중복만 잘 잡고 고유·시너지는 버리기 쉽다.
선형 회귀에 두 모달리티를 곱한 항을 더하면 곱셈 상호작용을 포착할 수 있고, 이를 확장한 이중선형 풀링과 텐서 곱은 트랜스포머 융합의 뿌리가 된다.
모달리티가 셋 이상이면 곱셈 항이 급격히 커지므로, LoRA와 같은 저랭크 근사로 거대한 가중치 행렬을 효율화한다.
복잡한 융합 모델도 가장 가까운 덧셈 모델로 근사했을 때 성능이 약 2%밖에 떨어지지 않기도 해, 실제로 학습한 상호작용이 단순 덧셈에 가까운 경우가 있음을 시사한다.

쉽게 이해하기

멀티모달 융합은 서로 다른 모달리티(예: 텍스트와 이미지, 표정과 음성)를 하나로 합쳐, 정보가 어디서 오고 어떻게 결합되는지를 담은 결합 표현을 학습하는 문제다. 강의는 융합을 하나의 스펙트럼으로 본다. 한쪽 끝은 사전학습 모델로 추상적 특징을 먼저 뽑아 표현 공간에서 비슷해진 상태로 단순하게 합치는 방식(늦은 융합)이고, 반대쪽 끝은 원시 데이터를 이른 시점에 이어 붙여 융합 모델이 더 많은 일을 하게 하는 방식(이른 융합)이다.

핵심은 모달리티 간 상호작용의 유형을 구분하는 것이다. 중복은 두 모달리티가 같은 정보를 강화하는 경우로, 대조학습 기반 정렬이 이 공통 정보를 잘 잡는다. 고유는 한쪽에만 있는 정보이고, 시너지는 두 모달리티를 합쳐야 비로소 드러나는 정보다. 예컨대 말은 긍정적인데 표정은 화가 나 있으면 '비꼬는 것'이라는 새 의미가 생기는데, 정렬 기반 방법은 이런 시너지를 놓치고 공통 정보만 남긴다.

가장 단순한 융합은 선형 회귀에 두 모달리티를 곱한 항(w3·xa·xb)을 더하는 것이다. 이 곱셈 항 덕분에 '표정이 평점에 미치는 영향이 비평가인지 아닌지에 따라 달라지는' 식의 상호작용을 표현할 수 있다. 이를 고차원으로 확장하면 두 특징 벡터의 외적으로 만든 이중선형 행렬이 되고, 여기에 1을 덧붙이면 곱셈 항과 단일 모달리티 항, 절편을 한꺼번에 담을 수 있다. 이런 이중선형 풀링의 발상이 오늘날 멀티모달 트랜스포머로 이어졌다.

모달리티가 셋 이상이면 곱셈 상호작용을 담는 텐서가 급격히 커져 비효율적이다. 그래서 큰 가중치 행렬을 더 작은 행렬들의 조합으로 근사하는 저랭크 근사가 쓰인다. 이는 거대한 LLM의 어텐션 행렬 전체를 갱신하는 대신 저랭크 근사만 갱신하는 LoRA 미세조정과 같은 아이디어다. 또한 가중치가 고정되지 않고 입력 데이터에 따라 달라지는 게이트·동적 융합은 소프트/하드 어텐션으로 어떤 특징을 융합에 쓸지 조절한다.

흥미로운 반전도 있다. 복잡한 융합 모델을 덧셈 형태(f(a)+f(b))의 가장 가까운 모델로 사영했을 때 성능이 91%에서 91.1%로, 즉 약 2%만 떨어지는 사례가 있었다. 다만 이는 처음부터 덧셈 모델을 학습해 같은 성능을 낼 수 있다는 뜻은 아니며, 복잡한 모델을 만든 뒤 효율을 위해 덧셈 모델로 증류하는 활용법을 시사한다. 이런 통찰은 단계적 잔차 최적화(단일 → 이중 → 삼중 모달리티)로 이어진다.

주요 인사이트

정렬 기반 대조학습은 모달리티 간 중복 정보를 잘 포착하지만, 한쪽에만 있는 고유 정보나 합쳐야 드러나는 시너지는 버리기 쉽다. 데이터에 어떤 상호작용이 지배적인지에 따라 방법을 골라야 한다.
곱셈 상호작용, 이중선형 풀링, 텐서 융합, 그리고 멀티모달 트랜스포머는 모두 '한 모달리티의 특징이 다른 모달리티의 특징과 쌍으로 어떻게 상호작용하는가'라는 같은 뿌리를 공유한다.
저랭크 근사는 멀티모달 융합의 효율화뿐 아니라 대형 LLM의 LoRA 미세조정에도 그대로 쓰이는 공통 도구로, 큰 행렬을 작은 행렬들의 합으로 근사하는 발상이 핵심이다.
멀티모달 모델은 한 모달리티에 치우친 편향(초록 바나나도 노랗다고 답하거나, 노트북만 보고 성별을 추정하는 캡셔닝)에 빠지기 쉽고, 모달리티마다 학습·과적합 속도가 달라 최적화가 까다롭다. VQA 2.0처럼 데이터를 재균형하는 것이 한 해법이다.

자주 묻는 질문

중복·고유·시너지 상호작용은 각각 무엇인가요?

중복은 두 모달리티가 같은 정보를 강화하는 경우, 고유는 한쪽 모달리티에만 있는 정보, 시너지는 두 모달리티를 합쳐야 비로소 드러나는 정보(예: 말과 표정이 어긋나 생기는 '비꼼')입니다.

이른 융합과 늦은 융합의 차이는 무엇인가요?

이른 융합은 원시 데이터를 가능한 한 일찍 이어 붙여 융합 모델이 많은 일을 하게 하는 방식이고, 늦은 융합은 각 모달리티에서 특징이나 예측 라벨을 먼저 뽑은 뒤 앙상블·다수결처럼 단순하게 합치는 방식입니다.

저랭크 근사는 왜 필요한가요?

모달리티가 셋 이상이면 곱셈 상호작용을 담는 텐서와 다음 층으로의 가중치 행렬이 매우 커집니다. 저랭크 근사는 큰 행렬을 작은 행렬들의 합으로 근사해 파라미터를 크게 줄이며, LLM의 LoRA 미세조정과 같은 원리입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗