AI VIDEO BRIEFING
LLM 텍스트 생성 원리: 토큰화·임베딩·트랜스포머·확률·샘플링 5단계 정리
LLM이 프롬프트를 받아 글자를 만들어 내는 과정을 토큰화, 임베딩, 트랜스포머(어텐션), 확률, 샘플링의 5단계로 풀어낸다. 환각과 온도, 컨텍스트 한계가 왜 생기는지까지 짚는다.

핵심 메시지
쉽게 이해하기
매일 수백만 명이 챗봇에 프롬프트를 넣고 사람처럼 느껴지는 답을 받지만, 모델은 자신이 무슨 말을 할지 미리 모른다. 다음 단어조차 10만 개가 넘는 후보 중에서 확률적으로 추정한 결과다. 이 영상은 '전송' 버튼을 누른 순간부터 글자가 나타나기까지를 5단계로 짚는다.
1단계 토큰화에서 모델은 단어가 아니라 토큰을 읽는다. 흔한 단어는 토큰 하나로, 드물거나 긴 단어는 여러 조각으로 쪼개진다. 그래서 API의 4096 토큰 제한은 4000단어가 아니라 영어 기준 약 3000단어에 해당한다. 각 토큰은 숫자 ID로 바뀌어 모델에 들어간다.
2단계 임베딩에서는 숫자 ID만으로는 의미가 없으므로 각 토큰을 수천 차원의 벡터로 바꾼다. GPT-3는 토큰당 1만 2000개가 넘는 숫자를 쓴다. 이 벡터는 의미 공간의 좌표라서 king에서 man을 빼고 woman을 더하면 queen 근처에 도달하는 식의 관계가 드러나고, 비슷한 맥락에 등장하는 단어끼리 모인다.
3단계 트랜스포머에서 벡터는 수십억 개 매개변수의 신경망으로 들어간다. 핵심은 어텐션으로, '고양이가 지쳐서 매트에 앉았다'에서 그것(it)이 매트가 아니라 고양이를 가리킨다는 것을 가중치로 학습한다. 이런 어텐션 계산이 여러 헤드에서 병렬로 일어나고 층층이 반복된다(GPT-3는 96개 층).
4·5단계인 확률과 샘플링, 그리고 반복이 마지막이다. 마지막 층은 어휘의 모든 토큰에 점수(logit)를 매기고 소프트맥스로 확률로 바꾼다. 그중 하나를 고르는 것이 샘플링이며, 온도가 낮으면 안전한 선택이, 높으면 드문 토큰이 뽑힌다. top-p는 확률 합이 P가 될 때까지의 토큰에서만 고른다. 토큰 하나를 고르면 입력에 붙여 전 과정을 다시 돌리며, 그래서 출력이 길수록 느려진다.
주요 인사이트
- 환각은 거짓말이 아니라 확률 분포가 '진실처럼 들리는' 텍스트를 만들어 낸 결과다. 확률 분포는 진실과 그럴듯함을 구분하지 못하므로 사실 주장은 항상 검증해야 한다.
- 온도는 모델을 더 '창의적'으로 만드는 게 아니라 낮은 확률의 토큰을 더 자주 고르게 할 뿐이다. 코딩·추출·서식처럼 결정적인 작업에는 낮은 온도를 쓰는 게 좋다.
- 컨텍스트 한계는 기업의 인색함이 아니라 아키텍처의 현실이다. 어텐션은 모든 토큰이 다른 모든 토큰을 참조해 계산량이 제곱으로 늘어난다.
- 모델은 토큰 10번째나 50번째에 무슨 말을 할지 미리 정해두지 않는다. 각 단어는 앞선 모든 내용에 근거해 자기 차례가 됐을 때 비로소 정해진다.
자주 묻는 질문
API의 '최대 4096 토큰'은 4096단어라는 뜻인가요?
아니다. 토큰은 단어보다 작은 단위라, 4096 토큰은 영어 기준 대략 3000단어에 해당한다.
온도(temperature)를 높이면 더 똑똑해지나요?
아니다. 온도는 확률이 낮은 토큰을 고를 가능성을 키울 뿐이며, 너무 높이면 출력이 일관성을 잃고 이상해진다. 코딩·추출 같은 작업에는 0.2~0.4의 낮은 온도가 권장된다.
모델은 답을 내놓기 전에 문장 전체를 알고 있나요?
아니다. 미리 정해진 대본이 없으며, 토큰 하나를 고를 때마다 그 결과를 다시 입력에 넣어 다음 토큰을 예측하는 식으로 한 번에 하나씩 생성한다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗