AI VIDEO BRIEFING

바이그램 언어 모델 쉽게 이해하기 - 카파시 GPT 강의 핵심 정리

안드레이 카파시의 GPT 직접 만들기 강의 전반부에 나오는 바이그램 언어 모델을 셰익스피어 데이터 예제로 풀어, 토큰·임베딩 표·손실·소프트맥스 개념을 정리한다.

출처: Caleb Writes Code2026년 6월 18일AI 보조 요약

GPT의 출발점, 바이그램 언어 모델: 카파시 강의를 10분으로 압축하다 영상 대표 이미지

핵심 메시지

바이그램 언어 모델은 토큰을 한 개씩 예측해 문장을 생성하는 가장 기초적인 언어 모델이다.
셰익스피어 텍스트에서 65개의 고유 문자(토큰)를 뽑아 65x65 임베딩 표를 만들고, 학습으로 이 숫자들을 셰익스피어 스타일에 가깝게 조정한다.
학습은 소프트맥스로 다음 토큰 확률을 구하고, 음의 로그 가능도(negative log likelihood)로 오차를 측정해 손실을 줄여 나가는 과정이다.
바이그램 모델은 바로 앞 토큰 하나만 보기 때문에 단어를 제대로 만들지 못하며, 이 한계는 어텐션(GPT 구조)으로 넘어서야 한다.

쉽게 이해하기

영상은 2023년 안드레이 카파시가 공개한 'GPT를 처음부터 만들기' 강의의 전반부, 즉 GPT로 넘어가기 전에 다루는 바이그램 언어 모델만 떼어내 10분으로 압축한다. 예제 과제는 '모델을 셰익스피어처럼 말하도록 학습시키기'다.

먼저 셰익스피어 전체 텍스트에서 알파벳·숫자·특수문자를 포함한 65개의 고유 문자를 뽑아 어휘(vocabulary)로 삼는다. 모델의 목표는 현재 토큰이 주어졌을 때 다음 토큰을 한 개씩 예측해 문장을 완성하는 것이다. 이를 65개 토큰 전체로 확장하면, 각 행이 현재 토큰, 각 열이 다음에 올 수 있는 토큰을 나타내는 65x65 표가 된다.

학습 전 이 표는 무작위 값이라 그대로 생성하면 의미 없는 문자열만 나온다. 발표자는 이를 '픽셀을 무작위로 찍어 모나리자를 그리려는 것'에 비유한다. 따라서 표의 숫자들을 셰익스피어 데이터가 가리키는 방향으로 밀고 당겨, 오차가 큰 상태에서 작은 상태로 수렴시키는 것이 학습이다.

데이터(약 117만 글자)는 한 번에 처리하지 않고 청크로 나눠 병렬 학습한다. 예제에서는 4개 배치, 각 배치 8개 블록(토큰), 각 토큰 65개 채널로 구성한다. 같은 토큰 T 뒤에 어떤 배치에선 O가, 다른 배치에선 H가 올 수 있으므로 특정 토큰만 1로 고정할 수 없고, 표를 조금씩 갱신해야 한다.

오차는 소프트맥스로 각 행을 합이 1인 확률(로짓)로 정규화한 뒤, 실제 정답 토큰에 모델이 부여한 확률이 낮을수록 벌점을 주는 음의 로그 가능도로 측정한다. 초기 손실이 약 4.87에서 시작해 수만 번 반복하면 2 안팎까지 내려간다. 학습률을 너무 크게 잡으면 불안정해지고 너무 작으면 느려지며, 역전파가 기울기를 구하고 옵티마이저가 갱신을 안정화한다.

주요 인사이트

임베딩 표의 한 행은 '현재 토큰', 한 열은 '다음 토큰 후보'를 의미하며, 학습은 이 표의 숫자를 데이터 분포에 맞게 수렴시키는 일이다.
소프트맥스는 해석하기 어려운 원시 숫자(예: 0.4, 1.6)를 합이 1인 확률로 바꿔, '토큰 O가 11% 확률로 다음에 온다'처럼 의미를 부여한다.
'학습이 불안정하다', '손실이 튄다'는 표현은 갱신 폭(학습률)을 얼마나 공격적으로 잡느냐의 문제이며, 너무 크면 불안정, 너무 작으면 수렴이 느리다.
바이그램 모델의 근본적 한계는 데이터나 학습이 아니라 구조 자체에 있다. 바로 앞 토큰 하나만 보기 때문에 문장 형태는 흉내 내도 단어를 제대로 만들지 못하며, 이를 넘어서려면 어텐션 메커니즘이 필요하다.

자주 묻는 질문

바이그램 언어 모델이란 무엇인가요?

바로 앞 토큰 하나만 보고 다음 토큰을 예측하는 가장 기초적인 언어 모델입니다. 문장처럼 보이는 출력은 만들 수 있지만 전체 맥락을 보지 못해 제대로 된 단어를 형성하지는 못합니다.

학습에서 소프트맥스와 음의 로그 가능도는 어떤 역할을 하나요?

소프트맥스는 표의 원시 숫자를 합이 1인 확률로 정규화해 다음 토큰의 확률을 알려 줍니다. 음의 로그 가능도는 실제 정답 토큰에 모델이 매긴 확률이 낮을수록 벌점을 주어, 이 손실을 줄이는 방향으로 학습이 진행됩니다.

바이그램 모델의 한계를 어떻게 극복하나요?

바이그램은 앞 토큰 하나만 보기 때문에 한계가 분명합니다. 더 넓은 맥락을 보려면 어텐션 메커니즘을 도입해야 하며, 그것이 GPT 구조로 넘어가는 다음 단계(영상 2부)에서 다뤄집니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗