AI VIDEO BRIEFING

LLM 사실 저장 원리: 트랜스포머 MLP 레이어와 슈퍼포지션 이해하기

대형 언어 모델이 외운 방대한 사실은 어디에 저장될까? 트랜스포머의 MLP 레이어 동작과 고차원 슈퍼포지션 개념을 쉽게 풀어 설명한다.

출처: 3Blue1Brown 한국어2025년 10월 20일AI 보조 요약

LLM은 '마이클 조던은 농구를 한다'를 어디에 기억할까? 트랜스포머 MLP의 비밀 영상 대표 이미지

핵심 메시지

대형 언어 모델이 외우고 있는 사실 정보는 주로 트랜스포머의 MLP(멀티레이어 퍼셉트론) 레이어에 담겨 있다는 것이 구글 딥마인드 연구의 관점이다.
MLP 연산은 행렬 곱 → 비선형 함수(ReLU/GELU) → 행렬 곱이라는 비교적 단순한 구조이며, 모든 토큰 벡터에 독립적·병렬적으로 적용된다.
첫 번째 행렬(업 프로젝션)의 각 행은 임베딩 공간의 한 '방향'을 질문하고, 두 번째 행렬(다운 프로젝션)의 각 열은 뉴런이 켜졌을 때 더해질 의미를 결정한다.
GPT-3에서 MLP 블록만으로 약 1160억 개의 파라미터를 차지하며, 이는 전체 1750억 중 약 3분의 2에 해당한다.
고차원 공간에서는 거의 직교하는 방향을 차원 수보다 기하급수적으로 많이 담을 수 있어(슈퍼포지션), 모델이 차원 수를 훨씬 넘는 개념을 저장할 수 있다.

쉽게 이해하기

‘마이클 조던이 하는 스포츠는?’ 같은 문장을 넣으면 모델은 ‘농구’를 높은 확률로 예측한다. 영상은 이런 사실이 수천억 개의 파라미터 중 정확히 어디에 저장되는지를 묻고, 구글 딥마인드의 연구를 빌려 그 답이 주로 MLP 레이어에 있다고 설명한다.

트랜스포머는 입력 텍스트를 토큰으로 쪼개고 각 토큰을 고차원 벡터로 바꾼 뒤, 어텐션 레이어와 MLP 레이어를 번갈아 통과시킨다. 어텐션이 주변 문맥을 모아 의미를 풍부하게 만든다면, MLP는 각 벡터에 학습된 일반 지식을 더하는 역할을 한다. 모델 파라미터의 대부분이 MLP에 몰려 있는 이유도 여기에 있다.

MLP 내부 계산은 의외로 단순하다. 먼저 업 프로젝션 행렬을 곱하는데, 이 행렬의 각 행은 ‘이 벡터가 마이클인가, 조던인가’처럼 특정 방향과 얼마나 일치하는지를 내적으로 묻는 질문에 해당한다. 바이어스를 더해 전체 이름이 정확히 맞을 때만 양수가 되도록 조정한 뒤, ReLU 같은 비선형 함수에 통과시키면 ‘마이클 조던’ 전체가 맞을 때만 켜지는 AND 게이트처럼 작동한다.

그다음 다운 프로젝션 행렬은 열 단위로 보는 것이 직관적이다. 특정 뉴런이 켜지면 그에 대응하는 열 벡터(예: ‘농구’ 방향)가 최종 출력에 그대로 더해진다. 그 결과 ‘마이클 조던’ 벡터에 ‘농구’의 의미가 섞여 다음 레이어로 넘어간다. 이 연산은 모든 토큰에 똑같이, 병렬로 적용된다.

다만 영상은 이 깔끔한 그림이 실제와 완전히 같지는 않다고 못 박는다. 최근 연구에서는 뉴런 하나가 ‘마이클 조던’처럼 깔끔한 특징 하나만 표현하는 경우가 드물고, 여러 뉴런의 조합으로 의미가 표현되는 ‘슈퍼포지션(중첩)’이 일어난다고 본다.

주요 인사이트

MLP는 ‘질문하는 행렬(업)’과 ‘답을 더하는 행렬(다운)’의 조합으로 볼 수 있고, 그 사이의 비선형 함수가 조건을 만족할 때만 정보를 켜는 스위치 역할을 한다.
ReLU는 음수를 0으로 만들고 양수는 그대로 두는 함수로, 선형 연산만으로는 ‘이름만 같은 다른 사람’과 혼동되는 문제를 비선형성으로 걸러낸다. 실제 모델은 ReLU와 비슷한 GELU를 자주 쓴다.
고차원 공간에서 무작위 벡터들은 자연스럽게 거의 직교(약 90도)하는 경향이 있고, 존슨–린덴스트라우스 정리에 따라 거의 직교하는 벡터 수는 차원에 지수적으로 늘어난다.
이 슈퍼포지션은 ‘모델이 크면 왜 성능이 좋아지는가’를 설명한다. 차원이 10배 늘어도 담을 수 있는 독립 개념은 단순히 10배가 아니라 훨씬 더 많아지기 때문이다.
모델 내부 해석에 관심이 있다면 ‘스파스 오토인코더(sparse autoencoder)’가 슈퍼포지션을 풀어내는 핵심 키워드다.

자주 묻는 질문

대형 언어 모델이 외운 사실 정보는 주로 어디에 저장되나요?

구글 딥마인드 연구의 관점에 따르면 주로 트랜스포머의 MLP(멀티레이어 퍼셉트론) 레이어에 저장됩니다. 모델 파라미터의 상당 부분이 이 블록에 몰려 있습니다.

MLP 레이어의 계산은 어떻게 이루어지나요?

행렬 곱(업 프로젝션) → ReLU 같은 비선형 함수 → 행렬 곱(다운 프로젝션) 순서로 이루어지며, 결과를 입력 벡터에 더해 다음 레이어로 넘깁니다. 이 과정은 모든 토큰 벡터에 독립적이고 병렬적으로 적용됩니다.

슈퍼포지션(중첩)이란 무엇인가요?

고차원 공간에서 거의 직교하는 방향이 차원 수보다 기하급수적으로 많이 존재할 수 있다는 성질을 이용해, 하나의 뉴런이 아니라 여러 뉴런의 조합으로 수많은 특징을 동시에 표현하는 방식입니다. 영상은 이것이 큰 모델일수록 성능이 좋아지는 이유를 설명한다고 말합니다.

GPT-3에서 MLP 블록이 차지하는 파라미터 규모는 어느 정도인가요?

업·다운 프로젝션을 합쳐 한 블록에 약 12억 개, 96개 레이어 전체로는 약 1160억 개로, 전체 1750억 파라미터의 약 3분의 2에 해당합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗