AI VIDEO BRIEFING

상태공간모델(SSM)과 Mamba란? 트랜스포머 메모리 병목을 푸는 새 구조

GPU 메모리 대역폭에 발목 잡힌 트랜스포머의 한계를, 필요한 것만 기억하는 상태공간모델(SSM)과 맘바가 어떻게 푸는지 IBM이 설명한다. S4부터 하이브리드 소형 모델까지 핵심을 정리한다.

트랜스포머의 메모리 한계를 넘는 대안, 상태공간모델(SSM)과 맘바 영상 대표 이미지

핵심 메시지

  • 상태공간모델(SSM)은 순차 데이터를 처리하는 메모리 계층으로, 과거를 기억하고 패턴 변화에 맞춰 메모리를 갱신하며 다음을 예측한다.
  • SSM은 상태방정식(내부가 어떻게 진화하는가)과 관측방정식(그 상태를 어떻게 출력으로 보는가) 두 식으로 시스템을 표현한다.
  • 트랜스포머는 추론 시 GPU 메모리 대역폭이 병목인데, 80GB A100에 80억 모델을 올리면 KV 캐시만 약 64GB를 차지한다.
  • SSM은 긴 시퀀스를 O(N)으로 처리해 트랜스포머의 O(N²)보다 효율적이고, 모든 토큰이 아닌 핵심만 암묵적으로 기억한다.
  • S4는 효율적 기억을, 맘바는 선택성을 더해 똑똑한 기억을 가능케 했으며, 오늘날 granite V4 등은 SSM과 트랜스포머를 결합한 하이브리드로 발전했다.

쉽게 이해하기

영상은 상태공간모델(SSM)을 '더 빨리 생각하고, 더 많이 기억하며, 막대한 데이터를 실시간으로 다루는 AI'를 떠받치는 구성 요소로 소개한다. SSM은 신경망의 메모리 계층처럼 작동해, 시간에 따라 정보가 어떻게 변하는지 학습함으로써 순차 데이터를 처리한다. 핵심 동작은 세 가지다. 과거에 무슨 일이 있었는지 기억하고, 패턴이 변하면 메모리를 갱신하며, 예측을 내놓는다.

SSM은 두 개의 방정식으로 시스템을 표현한다. 상태방정식은 숨겨진 상태가 시간에 따라 어떻게 진화하는지를 모델링한다. 시점 t의 상태 벡터 x_t, 시스템 변화를 정의하는 행렬 A, 제어·편향 입력 u, 입력 영향을 바꾸는 행렬 B, 창의성에 영향을 주는 잡음 w로 구성된다. 관측방정식은 숨겨진 상태를 관측 출력으로 매핑한다. 출력 y_t, 상태를 관측으로 옮기는 행렬 C, 입력에서 출력으로의 영향을 주는 D, 측정 오차 v_t가 등장한다. 생성형 AI에 대입하면, 텍스트는 먼저 임베딩으로 만들어져 숨겨진 메모리를 갱신하는 입력이 되고, 출력 y_t는 다음 토큰이 되며 잡음 항은 모델의 창의적 변동성을 만든다.

이 수학 틀은 원래 로봇공학에서 쓰였다. 칼만 필터는 잡음 섞인 측정값 속에서도 로봇이 자기 위치를 추정하도록 돕는다. 오늘날 SSM은 음성·텍스트·시계열 같은 순차 데이터를 다루도록 적응해, 생성형 AI 진화에서 가장 중요한 수학적 틀 중 하나가 됐다.

영상이 짚는 문제는 비용이다. GPU는 비싸고 학습과 추론 모두 GPU를 많이 먹는데, 전통적 트랜스포머는 추론 시 특히 비효율적이다. 가장 큰 병목은 GPU 메모리 대역폭이다. 예컨대 80억 파라미터 모델은 약 80GB 메모리의 A100에 겨우 들어가는데, KV 캐시만 약 64GB를 차지하고 모델 가중치 8GB를 더하면 메모리의 약 90%에 이른다. 그 데이터를 옮기는 순간 대역폭 문제가 터진다. 연산 능력은 시간이 지나며 15배 늘 수 있지만 메모리 대역폭 개선은 3배 정도에 그쳐, GPU 사용률이 낮은데도 대역폭이 가득 차면 코어를 더해도 성능이 거의 오르지 않는 '데이터 이동 문제'가 생긴다.

SSM은 여기서 강점을 발휘한다. 긴 시퀀스를 O(N)으로 처리해 트랜스포머의 O(N²)보다 저렴하고, 과거 토큰을 전부 저장하는 대신 앞의 방정식 안에 암묵적으로 담으며, 연속 시간 신호로 시퀀스를 모델링한다. 트랜스포머와 결합하면 병목 상당수를 없앨 수 있다. 영상은 '트랜스포머는 모든 것을 기억하지만 SSM은 정말 중요한 것만 기억한다'고 요약한다. 대표적 돌파구인 S4(구조화 상태공간 시퀀스 모델)는 긴 시퀀스를 위한 새 신경망 계층으로, 오래전 일을 전부 들여다보지 않고도 기억해 트랜스포머의 확장 한계를 넘었다.

맘바(Mamba)는 S4 위에 '선택성'을 더한다. 입력에 따라 동적으로 바뀌는 행렬을 도입해 모델이 메모리를 선택적으로 갱신하고 답에 기여하지 않는 토큰은 무시한다. 트랜스포머의 어텐션 같은 유연성을 갖되 전체 어텐션 비용은 피하며, 큰 행렬 곱셈 대신 합성곱과 단순 곱셈으로 하드웨어 친화적으로 최적화돼 있다. 2024년 공개된 맘바1을 시작으로 비전·오디오 등 멀티모달 변형과 더 성능 좋은 맘바2가 나왔다. 영상은 'S4가 효율적으로 기억하는 법을, 맘바 계열이 똑똑하게 기억하는 법을 가르쳤다'고 정리한다. 오늘날 granite V4 같은 주류 모델은 SSM과 트랜스포머를 합친 하이브리드이며, 일부 하이브리드 SSM은 벤치마크 상위권에 오른다. 이런 모델 중에는 3억 5천만~10억 파라미터로 휴대폰·노트북·CPU·소비자급 GPU에서도 돌아가는 작은 것들도 있다.

주요 인사이트

  • SSM의 본질은 '기억-갱신-예측' 세 동작이며, 상태방정식과 관측방정식이라는 두 식으로 내부 진화와 외부 출력을 분리해 다룬다.
  • 트랜스포머의 실질적 한계는 연산량보다 GPU 메모리 대역폭이다. KV 캐시가 메모리를 잠식해 코어를 늘려도 성능이 정체된다.
  • 복잡도가 O(N²)에서 O(N)으로 떨어지는 것이 SSM이 긴 시퀀스에서 효율적인 핵심 이유다.
  • 맘바의 '선택성'은 어텐션 같은 유연성과 SSM의 속도를 함께 취하려는 절충으로, 입력 의존 동적 행렬로 중요한 토큰만 골라 기억한다.
  • SSM과 트랜스포머의 하이브리드가 실제 제품 모델로 가는 방향이며, 소형 하이브리드는 휴대폰·CPU에서도 구동될 만큼 효율적이다.

자주 묻는 질문

상태공간모델(SSM)은 근본적으로 무슨 일을 하나?

순차 데이터를 처리하는 메모리 계층으로 세 가지를 한다. 과거에 일어난 일을 기억하고, 패턴이 변하면 시간에 따라 메모리를 갱신하며, 그것을 바탕으로 예측을 내놓는다. 내부 진화는 상태방정식, 출력 변환은 관측방정식으로 표현한다.

트랜스포머의 가장 큰 병목은 무엇이라고 설명하나?

GPU 메모리 대역폭이다. 80억 파라미터 모델을 약 80GB의 A100에 올리면 KV 캐시만 약 64GB, 가중치 8GB를 더해 메모리의 약 90%를 쓴다. 이 데이터를 옮기는 과정에서 대역폭이 가득 차, 코어를 늘려도 성능이 거의 개선되지 않는다.

맘바(Mamba)는 S4와 무엇이 다른가?

맘바는 S4에 '선택성'을 더한다. 입력에 따라 동적으로 바뀌는 행렬로 메모리를 선택적으로 갱신해 중요하지 않은 토큰은 무시한다. 어텐션 같은 유연성을 가지면서도 전체 어텐션 비용은 피하고, 합성곱과 단순 곱셈으로 하드웨어에 맞게 최적화돼 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#상태공간모델#Mamba#트랜스포머#LLM#AI아키텍처