AI VIDEO BRIEFING

LLM 작동 원리 - 토큰화·임베딩·어텐션·트랜스포머 한눈에 이해

ChatGPT·Claude·Gemini가 말을 답으로 바꾸는 과정을 단계별로 풀었다. 토큰화, 임베딩, 어텐션, 트랜스포머 층 쌓기, 로짓과 샘플링까지 핵심 원리를 정리한다.

출처: Journey of a Data Scientist from IIT M2026년 4월 16일AI 보조 요약

LLM은 어떻게 작동하는가: 토큰화부터 다음 단어 예측까지 9분 해설 영상 대표 이미지

핵심 메시지

거대 언어 모델의 단 하나의 임무는 '주어진 단어들 다음에 올 가장 그럴듯한 단어를 예측'하는 것이며, 모든 능력이 이 목표에서 비롯된다.
텍스트는 먼저 토큰으로 쪼개져 정수 ID로 바뀌고, 임베딩 표를 통해 의미가 가까운 것끼리 가까이 놓이는 고차원 벡터가 된다.
어텐션은 모든 토큰이 서로를 보며 '얼마나 관련 있는가'를 따져 문맥을 반영하는 메커니즘으로, 쿼리·키·값과 소프트맥스로 작동한다.
현대 LLM은 어텐션과 피드포워드로 이뤄진 트랜스포머 블록을 수십~100개 넘게 쌓으며, 잔차 연결과 정규화로 학습을 안정시킨다.
마지막 벡터는 어휘 전체에 대한 점수(로짓)로 바뀌고 소프트맥스로 확률이 되며, 온도 값에 따라 표본을 뽑아 한 번에 한 단어씩 응답을 만든다.

쉽게 이해하기

영상은 ChatGPT·Claude·Gemini에 프롬프트를 입력할 때 보이지 않는 곳에서 벌어지는 일을 9분 동안 단계별로 보여 준다. 거대 언어 모델(LLM)은 방대한 텍스트로 학습된 신경망이며, 그 단 하나의 임무는 단어 시퀀스가 주어졌을 때 가장 그럴듯한 다음 단어를 예측하는 것이다. 코드 작성, 질문 답변, 심지어 추론처럼 인상적인 행동도 모두 이 하나의 목표에서 떠오른다. 모델은 사람처럼 언어를 이해하는 것이 아니라 단어들이 서로 어떻게 관계 맺는지를 통계적 지도로 만들고 그 위를 빠르게 항해한다.

첫 단계는 토큰화다. 모델이 무엇이든 하기 전에 텍스트를 숫자로 바꿔야 하므로, 문장을 토큰이라 불리는 작은 조각(온전한 단어, 단어의 일부, 또는 한 글자)으로 쪼갠다. 예를 들어 'unbelievable'은 un, believe, able의 세 토큰이 될 수 있다. 각 토큰은 학습 중에 만들어진 고정 어휘 사전에서 고유한 정수 ID를 받는데, 마치 단어 조각마다 바코드를 붙이는 것과 같다.

정수 ID 자체에는 의미가 없으므로, 모델은 각 토큰을 임베딩 표에서 찾아본다. 이 거대한 행렬의 각 행은 고차원 벡터이며, 비슷한 의미가 서로 가까이 놓이는 공간에 자리한다. '왕 - 남자 + 여자'가 실제로 '여왕' 근처에 도달하는 것은 마법이 아니라 수십억 문장에서 학습된 기하학이다. 벡터는 4,096차원처럼 우리가 시각화할 수 없는 크기지만 2D나 3D로 투영하면 군집을 볼 수 있다.

토큰 벡터 목록이 생겼지만 모델에는 문맥이 필요하다. 'bank'는 강둑(riverbank)과 은행 계좌(bank account)에서 뜻이 다르기 때문이다. 여기서 어텐션이 등장한다. 어텐션은 모든 토큰이 다른 모든 토큰을 보며 '너는 나에게 얼마나 관련 있는가'를 묻게 하고, 그 답은 각 위치의 정보를 얼마나 섞을지 알려 주는 가중치(확률 분포)다. 메커니즘상 각 토큰은 쿼리·키·값 세 벡터를 만들고, 한 토큰의 쿼리를 모든 토큰의 키와 내적해 관련도를 구한 뒤 스케일링과 소프트맥스로 가중치를 얻어 값의 가중합을 새 표현으로 삼는다. 이 과정은 여러 헤드에서 병렬로 일어나며 헤드마다 문법·의미·위치 등 서로 다른 관계에 집중한다.

어텐션 한 층으로는 부족해, 현대 LLM은 트랜스포머 블록을 수십 개, 때로는 100개 넘게 쌓는다. 각 블록은 방금 본 어텐션 하위층과, 토큰을 각각 독립적으로 처리하는 피드포워드 신경망으로 이뤄진다. 각 하위층의 출력은 입력에 다시 더해지는 잔차 연결을 거쳐 정규화되는데, 이는 학습 중 기울기를 건강하게 유지하고 정보가 층을 통해 자유롭게 흐르게 한다. 층을 지날수록 표현이 풍부해져 초기 층은 구문, 중간 층은 의미, 깊은 층은 추상적 추론 패턴을 담는다.

모든 층을 지나면 마지막 토큰 위치의 최종 은닉 벡터가 남는다. 이 벡터는 또 하나의 행렬을 거쳐 어휘에 있는 모든 토큰에 대한 점수, 즉 수만 개의 로짓을 만들고, 소프트맥스가 이를 확률로 바꾼다. 모델은 이 분포에서 표본을 뽑는데 'the'가 30%, 'a'가 15%, 'my'가 8% 식이며, 온도(temperature) 값이 표본 추출이 얼마나 과감할지를 조절한다. 선택된 토큰은 시퀀스에 덧붙고 전체가 다시 처리되어 다음 토큰이 예측되는 식으로, 한 번에 한 단어씩 응답이 만들어진다.

주요 인사이트

겉으로 보이는 추론·코딩·작문 능력이 사실은 '다음 단어 예측'이라는 단일 목표에서 창발한다는 점이 LLM 이해의 출발점이다.
임베딩 공간에서 의미가 기하학적 거리로 표현된다는 사실('왕-남자+여자≈여왕')은, 모델이 의미를 수치적 위치 관계로 다룬다는 직관을 준다.
어텐션의 쿼리·키·값 구조는 'bank'처럼 같은 단어라도 주변 문맥에 따라 표현이 달라지게 만드는 핵심 장치다.
잔차 연결과 정규화는 화려하지는 않지만, 수십~수백 층을 안정적으로 학습시키고 정보가 깊은 층까지 흐르게 하는 토대다.
온도(temperature) 값은 같은 확률 분포에서도 답을 얼마나 보수적으로 또는 과감하게 고를지를 정하는, 출력 다양성의 조절 손잡이다.

자주 묻는 질문

거대 언어 모델의 근본적인 임무는 무엇인가요?

단어 시퀀스가 주어졌을 때 가장 그럴듯한 다음 단어를 예측하는 것 하나입니다. 코드 작성, 질문 답변, 추론 같은 능력도 모두 이 단일 목표에서 비롯됩니다.

토큰화와 임베딩은 각각 무엇을 하나요?

토큰화는 텍스트를 토큰(온전한 단어, 단어의 일부, 한 글자 등)으로 쪼개 고유한 정수 ID를 부여하는 단계이고, 임베딩은 그 ID를 의미가 비슷한 것끼리 가까이 놓이는 고차원 벡터로 바꾸는 단계입니다.

어텐션은 왜 필요한가요?

같은 단어라도 문맥에 따라 뜻이 달라지기 때문입니다. 예로 'bank'는 강둑과 은행 계좌에서 의미가 다른데, 어텐션은 모든 토큰이 서로의 관련도를 따져 각 위치의 정보를 적절히 섞어 문맥을 반영합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗