AI VIDEO BRIEFING

트랜스포머 구조 쉽게 이해하기: GPT·LLM이 다음 단어를 예측하는 원리

GPT의 T가 가리키는 트랜스포머는 무엇일까. 토큰·임베딩·어텐션·소프트맥스로 이어지는 흐름을 따라가며 LLM이 다음 단어를 예측하는 원리를 시각적으로 풀어낸다.

출처: 3Blue1Brown2024년 4월 1일AI 보조 요약

트랜스포머는 어떻게 LLM의 두뇌가 되었나: GPT 내부를 그림으로 따라가기 영상 대표 이미지

핵심 메시지

GPT는 '생성형 사전 훈련 트랜스포머'의 약자로, 트랜스포머는 현재 AI 붐의 근간이 된 신경망의 한 종류다.
이런 챗봇은 본질적으로 '다음에 올 토큰의 확률 분포'를 예측하고, 거기서 무작위로 하나를 골라 덧붙이는 과정을 반복하며 글을 만든다.
입력은 토큰으로 쪼개져 고차원 벡터(임베딩)로 바뀌고, 어텐션 블록에서 문맥에 맞게 의미가 갱신된다.
GPT-3는 약 1,750억 개의 가중치를 가지며, 임베딩 차원은 12,288, 어휘는 약 5만 개, 문맥 크기는 2,048이다.
거의 모든 계산은 학습된 행렬과 데이터 벡터의 곱(가중 합)으로 이뤄지며, 마지막엔 소프트맥스로 확률 분포를 만든다.

쉽게 이해하기

영상은 GPT라는 이름부터 풀어낸다. G는 새로운 텍스트를 만들어내는 '생성형(Generative)', P는 방대한 데이터로 미리 학습했다는 '사전 훈련(Pretrained)', 그리고 핵심인 T가 바로 '트랜스포머(Transformer)'다. 트랜스포머는 2017년 구글이 번역을 위해 처음 선보인 신경망 구조로, 지금은 음성 인식, 음성 합성, 그리고 달리·미드저니 같은 이미지 생성 도구까지 떠받치는 공통 기반이 되었다.

ChatGPT 계열 모델이 하는 일은 의외로 단순하게 요약된다. 주어진 글 다음에 어떤 토큰이 올지를 '확률 분포' 형태로 예측하는 것이다. 글을 길게 생성할 때는 이 분포에서 무작위로 하나를 뽑아 뒤에 붙이고, 늘어난 텍스트로 다시 예측하는 과정을 반복한다. 같은 구조라도 작은 GPT-2는 횡설수설하지만 훨씬 큰 GPT-3는 제법 그럴듯한 이야기를 만들어낸다는 점에서, 규모가 성능에 큰 영향을 준다는 사실이 드러난다.

데이터가 트랜스포머를 통과하는 흐름은 이렇다. 먼저 입력이 토큰으로 나뉘고, 각 토큰은 의미를 담은 숫자 목록인 벡터(임베딩)로 바뀐다. 비슷한 의미의 단어는 고차원 공간에서 가까운 위치에 놓인다. 이어 어텐션 블록에서 벡터들이 서로 정보를 주고받아 문맥에 맞게 의미를 갱신한다. 예컨대 '머신러닝 모델'의 '모델'과 '패션 모델'의 '모델'은 주변 단어 덕분에 서로 다른 의미로 조정된다.

어텐션 다음에는 다층 퍼셉트론(피드 포워드) 블록이 온다. 여기서는 벡터들이 서로 대화하지 않고 같은 연산을 병렬로 거친다. 트랜스포머는 이 두 블록을 번갈아 여러 번 반복하며, 마지막엔 시퀀스 끝 벡터에 구절 전체의 의미가 응축되기를 기대한다. 그 벡터에 '임베딩 해제' 행렬을 곱하고 소프트맥스를 적용하면 다음 토큰에 대한 확률 분포가 나온다.

영상은 구체적 수치로 규모를 실감하게 한다. GPT-3의 가중치는 1,750억 개이며 임베딩 차원은 12,288, 어휘 크기는 50,257개다. 임베딩 행렬만 약 6억 1,700만 개의 가중치를 차지한다. 또한 임베딩 공간의 '방향'이 의미를 담는다는 점도 보여준다. 왕에서 '여성-남성' 방향을 더하면 여왕 근처에 닿고, 두 벡터의 도트 곱으로 정렬 정도를 잴 수 있다는 직관이 다음 장의 어텐션 이해를 위한 토대가 된다.

주요 인사이트

'다음 단어 예측'이라는 단순한 목표가 반복을 통해 긴 글 생성으로 이어진다 — 생성은 예측의 누적이다.
토큰을 벡터로 바꾸는 임베딩에서 공간의 방향이 성별·복수형 같은 의미 축을 자연스럽게 학습한다.
어텐션 블록은 문맥에 따라 같은 단어의 의미를 다르게 갱신하는, 트랜스포머의 핵심 장치다.
문맥 크기(GPT-3는 2,048)가 한 번에 고려할 수 있는 텍스트 양을 제한하며, 긴 대화에서 맥락을 놓치는 이유가 된다.
온도(temperature) 값을 조절하면 예측 분포가 평평해지거나 뾰족해져 출력의 다양성과 위험이 달라진다.

자주 묻는 질문

GPT라는 이름은 무슨 뜻인가요?

생성형(Generative) 사전 훈련(Pretrained) 트랜스포머(Transformer)의 약자입니다. 새 텍스트를 생성하고, 방대한 데이터로 미리 학습했으며, 핵심 구조로 트랜스포머를 사용한다는 의미입니다.

트랜스포머는 텍스트를 어떻게 처리하나요?

입력을 토큰으로 쪼개 각 토큰을 의미를 담은 벡터(임베딩)로 바꾼 뒤, 어텐션 블록과 다층 퍼셉트론 블록을 번갈아 통과시키며 의미를 갱신하고, 마지막에 다음 토큰의 확률 분포를 만들어냅니다.

GPT-3의 규모는 어느 정도인가요?

가중치는 약 1,750억 개, 임베딩 차원은 12,288, 어휘 크기는 50,257개, 문맥 크기는 2,048입니다. 임베딩 행렬 하나만으로도 약 6억 1,700만 개의 가중치를 차지합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗