AI VIDEO BRIEFING

엔비디아 새 오픈 멀티모달 AI 모델 — 처리량·비용 효율을 끌어올린 5가지 기법

이미지·영상·오디오를 모두 다루는 300억 파라미터 오픈 AI 모델이 처리량과 비용 효율에 집중했다. 실시간의 약 10배 속도를 만든 5가지 기법을 정리했다.

출처: Two Minute Papers2026년 5월 13일AI 보조 요약

10배 빠른 처리량: 엔비디아의 새 오픈 멀티모달 AI가 노리는 '효율' 영상 대표 이미지

핵심 메시지

이미지·영상·오디오를 모두 처리하는 300억 파라미터 오픈·무료 모델로, 강점은 '처리량'과 '비용 효율'이다.
영상은 실시간의 약 10배(시간당 약 10시간 분량)를 처리하고, 문서 처리에서는 최대 7배까지 빨라진다.
문맥 길이에 따라 연산이 2차가 아닌 선형으로 늘어나 데이터가 많고 길수록 유리하다.
순수 텍스트 추론이나 코딩에는 최적이 아니지만, 빠르고 저렴한 멀티모달 처리에는 강력하다.

쉽게 이해하기

투 미닛 페이퍼스의 카로이 졸너이페헤르 박사가 이미지·영상·오디오를 모두 다루는 새로운 300억 파라미터 오픈·무료 AI 모델을 소개한다. 젬마 4 같은 다른 무료 시스템이 이미 있는 가운데, 이 모델이 내세우는 차별점은 두 단어, 처리량과 비용 효율이다.

속도가 인상적이다. 영상은 시간당 약 10시간 분량을 처리해 실시간의 거의 10배에 이르고, 콴 3 옴니보다 약 3배 빠르며 문서 처리는 최대 7배까지 빨라진다. 로컬 구동에는 약 25GB의 비디오 메모리를 갖춘 강력한 데스크톱 GPU가 필요하고, 클라우드에서는 람다를 사용한다.

효율의 비결은 다섯 가지다. 첫째, 문맥 길이에 대해 연산이 2차가 아닌 선형으로 늘어난다. 둘째, 오디오를 별도의 무겁고 비싼 음성 인식 모델 없이 토큰화하면서 감정과 톤 정보를 보존한다. 셋째, 이미지·영상의 종횡비를 유지하고 3D 컨볼루션으로 프레임 묶음을 한 번에 처리해 압축한다.

넷째, 하나의 거대한 CLIP 모델 대신 이미지-텍스트 매칭·세부 묘사·객체 분할 세 모델을 작은 인코더 하나로 증류한다. 다섯째, 배경이 같은 중복 프레임을 버리는 효율적 영상 샘플링을 쓴다. 라이선스는 아파치 2.0은 아니지만 파생·상업적 사용이 가능하며, 박사는 이를 10점 만점에 7점으로 평가한다.

주요 인사이트

모델 규모나 지능 순위보다 '얼마나 빠르고 싸게' 멀티모달 데이터를 처리하느냐가 실사용에서 결정적일 수 있다.
선형 스케일링, 감정 보존 오디오 토큰화, 3D 컨볼루션, 모델 증류, 중복 프레임 제거처럼 여러 효율 기법이 누적돼 큰 속도 차이를 만든다.
무료로 소유하고 직접 돌릴 수 있는 오픈 모델이 늘면서 모델들이 저마다 다른 방향으로 특화되는 흐름이 뚜렷하다.

자주 묻는 질문

이 모델의 가장 큰 강점은 무엇인가?

이미지·영상·오디오를 다루는 멀티모달 처리에서의 높은 처리량과 비용 효율로, 영상은 실시간의 약 10배 속도로 처리한다.

어떤 작업에는 적합하지 않나?

순수 텍스트 추론이나 코딩에는 최적이 아니며, 그런 용도라면 다른 모델을 보는 편이 낫다고 소개된다. 강점은 빠르고 저렴한 멀티모달 처리다.

로컬에서 돌리려면 무엇이 필요한가?

약 25GB의 비디오 메모리를 갖춘 강력한 데스크톱 GPU가 필요하며, 휴대폰에서 돌릴 수 있는 수준은 아니다. 클라우드로는 람다를 사용한다고 소개된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗