AI VIDEO BRIEFING
미니맥스 M3 분석: 스파스 어텐션으로 추론 비용 1/20, 디코딩 15배 가속
중국 AI 랩 미니맥스가 M3 모델에서 풀 어텐션을 스파스 어텐션으로 바꿔 100만 토큰 기준 토큰당 연산을 1/20로 줄였다. GPU 메모리 병목과 최적화 기법을 쉽게 풀이한다.

핵심 메시지
쉽게 이해하기
트랜스포머의 핵심은 2017년 등장 이후 줄곧 '어텐션'이었다. 초기에는 모든 토큰이 다른 모든 토큰을 살피는 멀티헤드 어텐션을 썼고, 당시에는 컨텍스트가 500~1,000토큰에 모델도 10억 파라미터 미만이라 어텐션 비용이 거의 문제가 되지 않았다. 그러나 모델이 커지고 컨텍스트가 10만 토큰을 넘어서면서, 바로 그 어텐션이 추론의 최대 병목으로 떠올랐다.
영상은 병목의 본질이 '연산'보다 '메모리 이동'에 있다고 설명한다. GPU 안에서 SRAM은 보통 10~100MB로 작아 KV 캐시는 대부분 HBM에 머문다. HBM과 SRAM 사이 전송 속도는 초당 수 테라바이트인 반면 SRAM에서의 연산은 초당 페타플롭스 단위라, 데이터 이동과 연산 능력 사이에는 300배 이상의 격차가 있다. 즉 연산 여력은 남아도는데 데이터를 옮기는 대역폭이 발목을 잡는 구조다.
이 한계를 줄이는 방법으로는 모델 일부만 활성화하는 MoE, 가중치를 FP8·FP4·AWQ 등으로 줄이는 양자화, 관련 토큰만 보게 하는 스파스·리니어 어텐션, KV 캐시 자체를 줄이거나 MHA→GQA→MLA처럼 어텐션을 묶는 방식, 플래시 어텐션 같은 커널·IO 최적화가 있다. 프런티어 랩들은 보통 이들을 섞어 쓴다.
미니맥스 M3는 불과 7개월 전 AMA에서 연구 책임자가 스파스 어텐션의 양산 적용에 신중했음에도, 풀 어텐션에서 스파스 어텐션으로 넘어가는 과감한 선택을 했다. 여기에 GQA로 여러 쿼리가 KV 캐시를 공유하게 하고, 토큰을 타일(블록) 단위로 묶어 상위 K개의 관련 타일만 골라 읽으며, KV 타일을 바깥 루프로 두고 순차 처리해 IO를 줄였다.
미니맥스 보고에 따르면 100만 토큰 기준 토큰당 연산은 M2의 1/20, 프리필은 9.7배, 디코딩은 15.6배 빨라졌고 대부분 능력에서 풀 어텐션과 대등했다. 다만 기술 논문은 아직 공개 전이라 정확한 구현은 추정 단계다. 긴 컨텍스트와 에이전트 사용이 늘며 희소한 HBM 자원에 대한 압박이 커지는 가운데, 이런 아키텍처 변화는 모델을 대규모로 서빙하는 인프라 효율에 직접적인 의미를 갖는다.
주요 인사이트
- AI 모델의 비용과 속도를 좌우하는 것은 파라미터 수만이 아니라 '메모리가 얼마나 효율적으로 움직이느냐'다.
- 스파스 어텐션은 모든 토큰을 다 보지 않고 관련 상위 토큰만 보게 해 연산량과 메모리 전송을 동시에 줄인다.
- GQA(쿼리 공유)·타일 처리·IO 최적화는 각각 KV 캐시 부담, 흩어진 메모리 접근, 반복 읽기를 줄이는 상호 보완적 기법이다.
- 토큰 효율과 처리량은 모델 계층의 새로운 경쟁축이며, 이는 추론 인프라 설계와 칩 선택(예: 어센드)에도 파급된다.
자주 묻는 질문
미니맥스 M3가 M2에서 바꾼 핵심은 무엇인가?
어텐션 메커니즘을 풀 어텐션에서 스파스 어텐션으로 전환하고, 여기에 GQA·타일 처리·IO 최적화를 결합한 점이다.
왜 어텐션이 추론의 병목이 되나?
컨텍스트가 10만 토큰을 넘어서면서 모든 토큰이 모든 토큰을 보는 연산과 그에 따른 KV 캐시의 메모리 이동(HBM↔SRAM 대역폭)이 급증하기 때문이다.
M3가 보고한 효율 개선 수치는?
100만 토큰 기준 토큰당 연산이 M2의 1/20, 프리필 단계 9.7배, 디코딩 단계 15.6배 가속이며, 대부분 능력에서 풀 어텐션 수준을 유지했다고 밝혔다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗