AI VIDEO BRIEFING
트랜스포머 GPT 구조 쉽게 이해하기: 토큰 임베딩·어텐션·QKV 완전 정리
공이 떨어지는 갈튼 보드 비유로 GPT의 내부를 단계별로 풀어낸다. 토큰 임베딩, 어텐션의 Q·K·V, 멀티헤드, 위치 임베딩, 잔차 연결까지 트랜스포머의 뼈대를 정리했다.

핵심 메시지
쉽게 이해하기
영상은 LLM이 빠르게 발전하는 지금일수록 GPT가 실제로 어떻게 작동하는지 짚고 넘어가자고 제안한다. GPT는 OpenAI·앤트로픽은 물론 딥시크·미니맥스 같은 중국 랩도 각자 방식으로 튜닝해 쓰는 공통 토대이며, 애플리케이션 계층에서 더 빠른 토큰 생성·긴 문맥·더 나은 도구 호출을 원하는 압력이 모두 GPT로 수렴한다고 설명한다.
설명은 갈튼 보드 비유로 시작한다. 바닥에 알파벳·숫자·특수문자를 라벨로 깔고 공이 떨어지며 다음 토큰을 정하게 하면 문장이 횡설수설해진다. 그래서 내부 기계를 GPT로 갈아끼워, 현재 토큰을 보고 다음 토큰을 정하게 한다. 먼저 데이터를 조각(배치·블록)으로 나눠 병렬로 학습시키는데, 영상은 4개 배치·각 8토큰 블록으로 총 32토큰을 병렬 샘플링하는 예를 든다.
토큰의 ID만으로는 'A 다음에 공백이 자주 오는지' 같은 뉘앙스를 담을 수 없다. 그래서 각 토큰에 32차원의 여유 공간을 주는 토큰 임베딩 테이블(예: 128×32)을 만들어 내부 표현을 저장한다. 그다음 핵심인 어텐션이 등장하는데, 이는 토큰들이 블록 안에서 어떻게 소통하는지를 담는 별도 장치다.
어텐션을 위해 영상은 검색하는 벡터 Q, 라벨링하는 벡터 K, 값을 담는 벡터 V 세 가지를 만든다. Q와 K의 전치를 곱해 8×8 어텐션 점수를 구하고, 값이 폭발하지 않도록 헤드 크기(32)의 제곱근(약 5.66)으로 스케일한다. 디코더 전용 트랜스포머라 미래 토큰은 음의 무한대로 막은 뒤 확률 분포로 바꾸고, 이 확률을 V와 곱해 각 토큰이 받을 정보를 구한다. 이것이 2017년 구글의 'Attention Is All You Need' 논문이 요약한 그 식이다.
여기에 토큰 순서를 알기 위한 위치 임베딩을 더하고, 같은 시퀀스를 여러 관점(문법·근거리·원거리 관계 등)으로 보는 멀티헤드 어텐션으로 나눈다. 마지막으로 더 깊은 사고를 위한 피드포워드 신경망, 값의 폭주를 막는 레이어 정규화, 길어진 모델이 불안정해지지 않도록 입력을 건너뛰어 더하는 잔차 연결을 추가한다. 이렇게 블록을 길게 반복해 쌓아야 비로소 GPT가 되며, 그 위에 수조 개 토큰으로 실제 학습을 해야 제 역할을 한다고 마무리한다.
주요 인사이트
- 토큰 ID는 위치 번호일 뿐 의미가 없기 때문에, 임베딩으로 '내부 표현을 담을 여유 공간'을 주는 것이 모든 단계의 공통 아이디어다.
- 어텐션에 벡터가 세 개(Q·K·V) 필요한 이유는 '보는 행위'와 '보여지는 행위'를 분리해야 하기 때문이다.
- 멀티헤드 어텐션은 같은 문장을 여러 관점으로 동시에 보게 해, 일반화 대신 전문화로 관계를 포착한다.
- 피드포워드·레이어 정규화·잔차 연결은 각각 '더 깊은 사고 공간', '값 안정화', '깊은 모델의 왜곡 방지'라는 분명한 역할을 가진다.
- 구조(plumbing)를 갖췄다고 끝이 아니라, 수십억~수조 토큰의 데이터로 학습해야 모델이 실제로 동작하며, 각 랩은 이 아키텍처의 서로 다른 부분을 최적화한다.
자주 묻는 질문
GPT에서 토큰 임베딩이 왜 필요한가요?
토큰의 ID는 단지 위치 번호일 뿐 의미가 없어서, 어떤 글자가 공백 뒤에 자주 오는지 같은 뉘앙스를 담을 수 없습니다. 그래서 각 토큰에 여러 차원(영상 예시는 32차원)의 여유 공간을 줘 내부 표현을 저장하는 것이 토큰 임베딩입니다.
어텐션에 Q·K·V 세 벡터가 필요한 이유는 무엇인가요?
어텐션은 '보는 행위'와 '보여지는 행위'를 분리해야 하기 때문입니다. 검색하는 벡터 Q, 라벨링하는 벡터 K, 값을 담는 벡터 V로 나눠 어텐션 점수를 계산하고, 그 확률을 V와 곱해 각 토큰이 받을 정보를 구합니다.
토큰 임베딩과 어텐션만으로 GPT가 완성되나요?
아닙니다. 영상에 따르면 토큰 순서를 담는 위치 임베딩, 여러 관점을 보는 멀티헤드 어텐션, 더 깊은 사고를 위한 피드포워드 신경망, 값 폭주를 막는 레이어 정규화, 깊은 모델을 안정시키는 잔차 연결이 더해지고 블록을 길게 쌓아야 GPT가 됩니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗