AI VIDEO BRIEFING

엔비디아 네모트론 3 분석 - Nano/Super/Ultra와 하이브리드 마암바 구조

엔비디아 네모트론 3의 세 변형(Nano/Super/Ultra) 설계 의도와, 하이브리드 마암바 트랜스포머·잠재 MoE·다중 토큰 예측이라는 세 가지 아키텍처 특징을 정리한다.

출처: Caleb Writes Code2026년 6월 11일AI 보조 요약

엔비디아 네모트론 3 뜯어보기: 세 가지 크기와 마암바·잠재 MoE·다중 토큰 예측 영상 대표 이미지

핵심 메시지

네모트론 3은 Nano(300억)·Super(1200억)·Ultra(5500억) 세 크기로, 각각 소비자 하드웨어·서버급 GPU·AI 팩토리 인프라 계층을 겨냥한다.
하이브리드 마암바 트랜스포머는 마암바2 층과 전체 어텐션 층을 교차 배치해, 어텐션의 제곱 비용 문제를 완화하고 최대 100만 토큰 맥락을 지원한다.
잠재 MoE(latent MoE)는 토큰을 저차원으로 사영해 라우팅·연산 비용을 줄이고, 그 여유로 더 많은 전문가를 토큰에 노출시킨다.
다중 토큰 예측(MTP)은 다음 토큰 여러 개를 미리 내다보게 해 표현력을 높이고, 추론 시에는 추측 디코딩으로 토큰 생성 속도를 높인다.

쉽게 이해하기

엔비디아는 지난 6개월간 네모트론 3을 세 가지 변형으로 공개했다. 엔비디아의 Joey와의 인터뷰에 따르면, 가장 흔한 컴퓨팅 환경에 맞춰 정확도와 비용·지연·처리량의 절충을 다양화하려 세 크기로 나눴다. Nano와 Super는 칩 계층을, Ultra는 인프라 계층을 겨냥한다.

Nano는 총 300억(활성 30억) 파라미터로 소비자 하드웨어를 노린다. NVFP4 덕분에 FP8 메모리의 절반 수준(약 15GB)으로 돌릴 수 있다. Super는 총 1200억(활성 100억)으로 Mac Studio나 DGX Spark에서도 돌지만 H100·A100급 서버 GPU 프로필에 가깝다. Ultra는 총 5500억(활성 500억)으로 딥시크 V3와 비슷한 규모이며, 여러 GPU가 필요해 AI 팩토리 인프라 계층에 맞춰진다.

첫 번째 아키텍처 특징은 하이브리드 마암바 트랜스포머다. 어텐션은 맥락이 길어질수록 연산이 제곱으로 늘어나 100만 토큰 맥락에서는 메모리 부담이 커진다. 엔비디아는 선형에 가까운 마암바2(상태 공간 모델) 층과 전체 어텐션 층을 교차 배치했다. 마암바2는 KV 캐시 없이 고정 크기 행렬에 표현을 저장·갱신해(RNN의 은닉 상태와 유사) 메모리를 일정하게 유지하면서, 하드웨어 친화적 행렬 곱으로 병렬화한다.

두 번째는 잠재 MoE다. 기존 MoE는 전체 가중치 대신 일부 전문가만 활성화해 HBM에서 SRAM으로 옮길 가중치를 줄이고, 전문가 병렬화로 여러 GPU에 분산해 속도를 높인다. 딥시크가 부하 균형과 전문가 특화로 MoE를 한 단계 끌어올린 데 더해, 엔비디아는 토큰을 저차원으로 사영(down projection)해 더 작은 잠재 표현 위에서 전문가를 활성화한다. 이렇게 절약한 여유로 더 많은 전문가를 두어 각 토큰이 더 많은 전문가의 판단을 받게 했다.

세 번째는 다중 토큰 예측(MTP)이다. 전통적으로 토큰은 자기회귀 방식으로 한 개씩 생성되지만, MTP는 다음 토큰뿐 아니라 그 이후 여러 토큰까지 예측하게 한다. 주로 학습 시 모델의 표현력과 앞을 내다보는 능력을 키우는 데 쓰이지만, 추론에서는 추측 디코딩 형태로 여러 토큰을 미리 만들고 한 번에 검증해 속도를 높인다. 끝으로 영상은 라이선스를 짚으며, 엔비디아가 리눅스 재단의 OpenMDW 1.1을 채택해 'AI 모델이 오픈'이라는 말의 범위를 명확히 했다고 전한다.

주요 인사이트

세 변형은 단순한 크기 구분이 아니라, 소비자 칩·서버 GPU·AI 팩토리라는 서로 다른 하드웨어 설치 기반에 정확도와 비용을 맞춘 결과다.
마암바2 같은 상태 공간 모델은 KV 캐시 대신 고정 크기 상태를 갱신해 메모리가 일정하게 유지되며, 어텐션 층과 교차 배치하면 긴 의존성도 놓치지 않으면서 100만 토큰 맥락을 감당한다.
잠재 MoE의 핵심은 저차원 잠재 표현 위에서 라우팅·연산을 수행해 아낀 자원을 '더 많은 전문가'에 투자하는 설계 선택이다.
엔비디아는 하위 계층(하드웨어)을 사실상 장악하고 있어, 모델 구조를 자사 하드웨어에 최적화해 맞출 수 있다는 구조적 이점을 가진다.

자주 묻는 질문

네모트론 3의 세 변형은 각각 무엇을 겨냥하나요?

Nano(총 300억/활성 30억)는 소비자 하드웨어, Super(총 1200억/활성 100억)는 H100·A100급 서버 GPU, Ultra(총 5500억/활성 500억)는 여러 GPU가 필요한 AI 팩토리 인프라 계층을 겨냥합니다.

하이브리드 마암바 트랜스포머는 왜 쓰나요?

어텐션은 맥락이 길어질수록 연산이 제곱으로 늘어 메모리 부담이 큽니다. 선형에 가까운 마암바2 층을 전체 어텐션 층과 교차 배치하면, KV 캐시 없이 메모리를 일정하게 유지하면서 최대 100만 토큰 맥락을 효율적으로 처리할 수 있습니다.

다중 토큰 예측(MTP)은 어떤 이점이 있나요?

MTP는 다음 토큰 여러 개를 한꺼번에 내다보게 합니다. 학습에서는 모델의 표현력과 앞을 내다보는 능력을 키우고, 추론에서는 추측 디코딩으로 여러 토큰을 미리 만들어 검증함으로써 토큰 생성 속도를 높일 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗