AI VIDEO BRIEFING

LLM 작동 원리 쉽게 이해하기: 토큰화·임베딩·어텐션·소프트맥스

토큰화, 바이트 페어 인코딩, 임베딩, 어텐션, 피드포워드, 예측, 소프트맥스, 온도까지 LLM이 다음 단어를 골라내는 전 과정을 비유로 풀어 설명한다.

출처: Curious Steve2025년 8월 18일AI 보조 요약

토큰부터 온도까지: 대규모 언어모델(LLM)이 문장을 만드는 8단계 영상 대표 이미지

핵심 메시지

LLM은 문장을 토큰으로 쪼개고 각 토큰에 고유 숫자 ID를 부여하는 토큰화로 자연어를 처리한다.
임베딩은 토큰에 여러 의미 점수를 매겨 단어 사이의 관계를 컴퓨터가 이해하게 만든다.
어텐션은 한 단어를 이해할 때 어떤 다른 단어가 중요한지 '스포트라이트'처럼 비춰 문맥을 파악한다.
최종 단계에서 모델은 모든 어휘에 점수를 매기고 소프트맥스로 확률로 바꿔 다음 단어를 하나씩 골라 문장을 완성한다.

쉽게 이해하기

영상은 LLM의 작동을 여러 날에 걸친 시리즈처럼 단계별로 풀어낸다. 첫 단계인 토큰화는 문장을 토큰이라는 조각으로 잘게 나누는 과정이다. 모델은 학습 단계에서 흔한 단어·부분단어·기호로 어휘 사전을 만들어 두는데, 예로 든 GPT-4의 사전은 10만 개가 넘는 토큰을 갖고 있다. 입력과 출력 토큰을 합쳐 모델의 최대 토큰 한도를 넘으면 오류가 나므로 공백과 기호 하나까지 토큰으로 센다는 점을 강조한다.

두 번째로 바이트 페어 인코딩(BPE)은 토큰화의 핵심 알고리즘으로, 단어를 개별 문자로 나눈 뒤 가장 자주 함께 등장하는 쌍을 반복해 병합하며 부분단어를 만든다. 덕분에 모델은 처음 보거나 철자가 틀린 단어도 비교적 잘 처리한다. 이렇게 나뉜 각 토큰에는 고유한 숫자 ID가 붙는다.

세 번째 임베딩은 숫자 ID에 의미를 입히는 단계다. 영상은 '왕', '여왕', '사과'에 왕족·남성성·음식 같은 점수를 매기는 비유로, 점수가 비슷한 단어끼리 가깝게 묶인다는 것을 보여준다. 이어 어텐션은 '왕이 사과를 먹었다' 같은 문장에서 '먹다'라는 단어가 누가 먹고 무엇이 먹히는지 알아내려고 다른 단어들에 스포트라이트를 비추는 메커니즘으로 설명된다. 이 밝기가 곧 어텐션 점수다.

이후 피드포워드 신경망은 각 단어를 문맥이 반영된 더 정교한 개념으로 '굽는' 오븐에 비유되고, 예측 단계에서는 선형 계층이 문맥을 요약해 어휘 전체(예: 10만 개)에 점수(로짓)를 매긴다. 소프트맥스 함수가 이 점수들을 합이 100%가 되는 확률로 바꾸고, 모델은 한 단어씩 골라 '그는 배가 불렀다' 같은 문장을 완성한다. 마지막으로 온도(temperature) 설정은 항상 최고 확률 단어를 고를지, 더 창의적으로 낮은 확률 단어도 고를지를 조절하는 손잡이로 소개된다.

주요 인사이트

LLM은 단어의 의미를 '아는' 것이 아니라 학습 데이터의 통계적 패턴에 기대어 토큰 단위로 처리한다는 점이 전 과정을 관통한다.
토큰은 단어 단위가 아니라 공백·기호까지 포함하므로, 토큰 한도와 비용을 다룰 때는 사람의 단어 감각과 모델의 토큰 계산이 다르다는 점을 의식해야 한다.
임베딩이 단어에 다차원 점수를 부여하기 때문에 '왕'과 '여왕'이 가깝고 '사과'는 멀리 놓이는 식으로 의미 관계가 수치로 표현된다.
어텐션은 문장 안의 모든 단어에 대해 '어떤 단어가 이 단어를 이해하는 데 중요한 단서인가'를 동적으로 판단해 누가 무엇을 했는지 연결한다.
온도와 top-k 같은 설정은 같은 모델이라도 출력의 사실성과 창의성 사이 균형을 사용자가 조절할 수 있게 해 준다 — 낮은 온도는 안전하고 예측 가능한 답을, 높은 온도는 더 무작위적인 답을 낸다.

자주 묻는 질문

토큰화에서 토큰은 정확히 무엇을 기준으로 세나?

모델은 먼저 문장의 단어를 이미 가진 토큰들과 대조하고, 사전에 없으면 공백과 문장부호를 포함해 조각으로 나눈다. 예로 'What a morning?'은 공백·물음표까지 세어 토큰 길이가 4가 된다. 사람은 보통 물음표를 따로 세지 않아 3으로 느낀다.

임베딩은 토큰 ID와 어떻게 다른가?

토큰 ID는 5, 28, 101처럼 의미 없는 번호일 뿐이다. 임베딩은 각 토큰에 왕족·남성성·음식 같은 여러 의미 점수의 목록을 부여해, 단조로운 ID에 풍부한 의미를 입히고 단어들이 서로 어떻게 연결되는지 비교할 수 있게 한다.

온도(temperature) 설정은 출력에 어떤 영향을 주나?

낮은 온도(약 0.1~0.3)에서는 항상 가장 높은 확률의 단어를 골라 사실적이고 예측 가능한 답을 낸다. 중간(0.7~0.9)은 예측성과 창의성의 균형을, 높은 온도는 더 무작위적이고 때로 엉뚱한 출력을 만든다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗