AI VIDEO BRIEFING

트랜스포머 작동 원리: 단어 임베딩·소프트맥스로 보는 ChatGPT 내부

GPT의 G·P·T가 무엇인지부터 단어 임베딩, 내적 유사도, 소프트맥스와 온도까지. 트랜스포머가 다음 단어를 예측하는 과정을 시각적으로 설명한다.

출처: 3Blue1Brown 한국어2025년 7월 29일AI 보조 요약

ChatGPT의 핵심 '트랜스포머', 단어가 벡터가 되어 다음 단어를 예측하기까지 영상 대표 이미지

핵심 메시지

GPT는 Generative(생성) Pre-trained(사전 학습) Transformer(트랜스포머)의 약자이며, 핵심은 2017년 구글의 ‘Attention is All You Need’ 논문에서 나온 트랜스포머 구조다.
트랜스포머는 텍스트뿐 아니라 음성·이미지 생성 모델(달리, 미드저니 등)의 기반으로도 쓰이며, 본질은 ‘다음에 올 토큰의 확률 분포’를 예측하는 것이다.
입력은 토큰으로 쪼개져 고차원 벡터(단어 임베딩)로 바뀌고, 의미가 비슷한 단어는 공간에서 가까운 방향에 놓인다.
어텐션 블록은 문맥에 따라 단어 의미를 갱신하고, MLP(피드포워드)는 벡터별로 병렬 연산을 수행하며, 대부분의 계산은 행렬-벡터 곱이다.
마지막 벡터에 언임베딩 행렬을 곱해 약 5만 개 토큰의 로짓을 만들고, 소프트맥스로 확률 분포를 만들며, ‘온도(temperature)’로 출력의 다양성을 조절한다.

쉽게 이해하기

영상은 GPT라는 이름을 풀어보는 것으로 시작한다. Generative는 생성, Pre-trained는 방대한 데이터로 미리 학습됨, 그리고 가장 중요한 Transformer는 현재 AI에서 가장 널리 쓰이는 신경망 구조를 뜻한다. 트랜스포머는 원래 2017년 구글이 번역을 위해 발표한 구조였지만, 지금은 ChatGPT의 토대가 되었다.

트랜스포머의 본질은 ‘다음 단어 하나’를 예측하는 것이다. 한 단어를 예측해 다시 입력에 넣고 반복하면 긴 문장을 생성할 수 있다. ChatGPT에서 글이 한 단어씩 차례로 나오는 이유가 바로 이것이다. 텍스트뿐 아니라 음성-텍스트 변환, 텍스트-이미지 생성 모델도 같은 구조를 공유한다.

처리 과정은 토큰화에서 시작한다. 입력은 단어나 단어 일부 같은 토큰으로 쪼개지고, 각 토큰은 숫자 리스트, 즉 벡터로 변환된다. 이 벡터를 고차원 공간의 좌표로 보면 의미가 비슷한 단어들이 가까이 모인다. GPT-3의 임베딩 차원은 12,288차원이며, 약 5만 개 토큰을 위한 임베딩 행렬만으로도 약 6억 개의 가중치가 필요하다.

단어 임베딩의 흥미로운 성질로 ‘방향이 의미를 가진다’는 점이 강조된다. 남자에서 여자를 뺀 차이를 왕에 더하면 여왕에 가까워지고, 복수형·성별 같은 추상적 개념도 특정 방향으로 인코딩된다. 두 벡터의 유사도는 내적으로 측정하는데, 방향이 비슷하면 양수, 직교하면 0, 반대면 음수가 된다.

네트워크 끝에서는 마지막 벡터에 언임베딩 행렬을 곱해 약 5만 개 토큰에 대한 로짓을 만든 뒤, 소프트맥스로 확률 분포로 바꾼다. 이때 ‘온도(temperature)’를 높이면 가능성이 낮은 단어도 선택될 여지가 생겨 다양해지지만 엉뚱한 결과가 나올 수 있고, 0에 가까우면 가장 확실한 단어만 골라 평범해진다.

주요 인사이트

‘다음 단어 예측’이라는 단순한 목표가 반복을 통해 긴 글 생성으로 이어진다 — 다음 단어만 잘 예측하면 무엇이든 생성할 수 있다.
딥러닝 모델의 학습 가능한 값을 ‘가중치(weight)’라 부르는 이유는, 모델에서 오직 가중치만이 데이터와 직접 곱해지기 때문이다.
단어 임베딩에서 방향은 의미를 담는다: 남자-여자, 단수-복수, 국가-지도자 같은 관계가 벡터의 차이로 나타난다.
GPT-3의 1750억 파라미터는 약 28,000개의 행렬로, 8가지 카테고리로 나뉘며 대부분의 연산이 행렬-벡터 곱으로 이루어진다.
소프트맥스의 ‘온도’는 열역학의 온도에 빗댄 이름으로, 값이 클수록 분포가 균일해지고 작을수록 최댓값에 집중된다.

자주 묻는 질문

GPT는 무엇의 약자인가요?

Generative(생성), Pre-trained(사전 학습), Transformer(트랜스포머)의 약자입니다. 방대한 데이터로 미리 학습된, 생성하는 트랜스포머라는 뜻입니다.

트랜스포머는 원래 무엇을 위해 만들어졌나요?

2017년 구글이 발표한 ‘Attention is All You Need’ 논문에서 텍스트 번역을 위해 개발되었습니다. 지금은 번역을 넘어 ChatGPT를 비롯한 다양한 모델의 기반이 되었습니다.

단어 임베딩에서 ‘방향이 의미를 가진다’는 건 무슨 뜻인가요?

학습을 거치면 비슷한 의미의 단어가 공간에서 비슷한 방향에 놓입니다. 예를 들어 남자에서 여자를 뺀 차이를 왕에 더하면 여왕에 가까운 벡터가 되는 식으로, 성별·복수형 같은 개념이 특정 방향으로 인코딩됩니다.

소프트맥스의 ‘온도(temperature)’는 어떤 역할을 하나요?

출력 확률 분포의 분포 모양을 조절합니다. 온도가 높으면 가능성이 낮은 단어도 선택될 여지가 생겨 다양해지지만 엉뚱해질 수 있고, 0에 가까우면 가장 확률이 높은 단어만 골라 예측 가능하고 평범한 문장이 나옵니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗