AI VIDEO BRIEFING

트랜스포머 어텐션 원리, 3Blue1Brown이 시각적으로 설명한 LLM 내부 구조

챗봇을 떠받치는 트랜스포머가 단어를 벡터로 바꾸고 어텐션으로 문맥을 주고받는 과정을, 3Blue1Brown의 강연을 토대로 토큰·임베딩·쿼리·키·값까지 쉽게 정리했다.

출처: Grant Sanderson2024년 11월 20일AI 보조 요약

3Blue1Brown이 그림으로 풀어낸 트랜스포머와 어텐션의 작동 원리 영상 대표 이미지

핵심 메시지

대규모 언어 모델은 본질적으로 다음에 올 토큰의 확률 분포를 예측하고, 거기서 무작위로 뽑아 한 단어씩 이어 붙이며 문장을 생성한다.
각 토큰은 먼저 의미를 담은 벡터(임베딩)로 변환되며, GPT-3의 경우 임베딩 차원이 12,288개에 이른다.
어텐션 블록은 쿼리·키·값 행렬을 통해 벡터끼리 정보를 주고받게 해, 같은 단어라도 문맥에 따라 의미가 갱신되도록 한다.
소프트맥스로 만든 어텐션 패턴은 어떤 토큰이 어떤 토큰을 갱신하는 데 중요한지를 가중치로 표현하며, 미래 토큰의 영향은 마스킹으로 차단한다.
트랜스포머가 강력한 이유는 순차 처리에 의존하지 않아 GPU에서 대규모 병렬 연산이 가능하고, 라벨이 필요 없는 다음 단어 예측으로 막대한 데이터를 학습할 수 있기 때문이다.

쉽게 이해하기

수학 시각화로 유명한 그랜트 샌더슨(3Blue1Brown)은 TNG 빅테크 데이 강연에서, 챗봇을 떠받치는 트랜스포머의 내부 연산을 “몸으로 느껴질 만큼” 직관적으로 설명하는 데 초점을 맞췄다. 그는 트랜스포머가 2017년 논문 「Attention Is All You Need」에서 기계 번역을 위해 등장했지만, 이후 음성 인식·음성 합성·이미지 분류 등 다양한 분야로 퍼졌다고 짚었다.

그가 다루는 모델은 텍스트를 받아 다음에 올 단어를 예측하도록 학습된 형태다. 모델은 하나의 답을 내놓는 것이 아니라 가능한 모든 토큰에 확률 분포를 매기고, 그 분포에서 무작위로 표본을 뽑아 이어 붙이는 과정을 반복한다. 이때 “온도(temperature)”를 높이면 약간의 무작위성이 더해져 더 자연스럽거나 창의적인 출력이 나온다.

데이터의 흐름은 토큰화로 시작한다. 텍스트는 단어나 단어 조각, 문장부호 같은 토큰으로 쪼개지고, 각 토큰은 의미를 인코딩한 벡터로 변환된다. 이 벡터들은 어텐션 블록과 다층 퍼셉트론(MLP)을 번갈아 통과하며, GPT-3는 이런 층을 96개나 쌓는다. 샌더슨은 모델 매개변수의 약 3분의 2가 어텐션이 아니라 MLP에 있으며, 마이클 조던과 농구를 잇는 사실 같은 일반 지식이 주로 이 MLP에 저장된다는 딥마인드의 연구를 소개했다.

강연의 핵심은 어텐션 메커니즘이다. “fluffy blue creature”처럼 형용사가 명사의 의미를 갱신하는 예시로, 명사가 쿼리 벡터로 “내 앞에 형용사가 있는가?”를 묻고, 형용사가 키 벡터로 답하며, 두 벡터의 내적이 클수록 서로 관련이 깊다고 본다. 이렇게 만든 가중치(어텐션 패턴)에 따라 값(value) 벡터들을 가중합해 원래 임베딩에 더함으로써 의미를 더 구체적으로 다듬는다.

샌더슨은 단어를 벡터로 바꿀 때 비슷한 의미끼리 모이고, 특정 방향이 의미를 인코딩한다는 점도 보여줬다. 2013년 구글 연구의 유명한 예처럼 “woman - man”의 차이 벡터를 King에 더하면 Queen 근처에 도달한다. 또한 고차원 공간에서는 거의 직교하는 벡터를 차원 수보다 훨씬 많이(지수적으로) 담을 수 있어, 1만 2천 차원이 생각보다 많은 개념을 표현할 수 있다고 설명했다.

주요 인사이트

토큰을 문자가 아니라 단어 조각 단위로 쪼개는 이유는, 문맥 길이가 너무 길어지는 것을 막고(어텐션 비용은 문맥 길이의 제곱으로 증가) 첫 층부터 곧장 의미에 접근하기 위해서다. 다만 토큰이 너무 크면 학습 데이터에 드물게 나타나 배우기 어려워, 바이트 페어 인코딩 같은 절충안이 쓰인다.
어텐션 패턴은 문맥 크기에 따라 제곱으로 커지므로, 긴 문맥 창을 가진 최신 모델은 원래의 어텐션을 변형하거나 캐싱 같은 기법으로 중복 연산을 줄여야 한다.
쿼리·키·값 행렬은 사람이 규칙을 설계해 넣는 것이 아니라, 수천억 개의 매개변수를 경사 하강법으로 조금씩 조정하며 데이터에서 패턴이 “창발”하도록 학습된다. 그래서 모델이 실제로 무엇을 하는지 해석하는 일은 설계와는 별개의 미해결 과제로 남아 있다.
하나의 어텐션은 단일 헤드일 뿐이며, 실제로는 수십~수백 개의 헤드가 병렬로 서로 다른 관계(형용사-명사, 부사-동사 등)를 포착하고, 그 결과를 모두 더해 임베딩을 갱신한다.
값 맵을 저차원으로 내렸다가 다시 올리는 저랭크 구조를 쓰면 매개변수를 절약할 수 있고, 잔차 연결처럼 층마다 새 값을 만드는 대신 기존 벡터에 변화를 더하는 방식이 학습 안정성에 도움이 된다.

자주 묻는 질문

GPT-3에서 토큰 임베딩 벡터의 차원은 몇 개인가?

강연에 따르면 GPT-3는 토큰을 12,288개의 좌표(차원)를 가진 벡터로 임베딩한다.

모델 매개변수는 주로 어디에 모여 있나?

제목이 「Attention Is All You Need」임에도, 매개변수 수로 보면 약 3분의 2가 어텐션이 아니라 다층 퍼셉트론(MLP)에 있으며, 일반 지식 같은 사실이 주로 이곳에 저장되는 것으로 보인다.

어텐션에서 미래 토큰의 영향을 막는 방법은 무엇인가?

소프트맥스를 적용하기 전에 나중 토큰이 앞선 토큰에 영향을 주는 위치의 값을 음의 무한대로 설정하는 마스킹을 쓴다. 그러면 소프트맥스 후 그 값이 0이 되고 열이 자동으로 정규화된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗