AI VIDEO BRIEFING

LLM 작동 원리 쉽게: 토큰화·임베딩·어텐션으로 보는 ChatGPT

GPT가 다음 단어를 예측해 문장을 완성하는 과정을 토큰화, 벡터 임베딩, 위치 인코딩, 셀프 어텐션, 소프트맥스까지 단계별로 풀어 설명한다.

출처: Piyush Garg2025년 3월 29일AI 보조 요약

ChatGPT는 어떻게 답을 만들까: LLM 내부 동작 한눈에 이해하기 영상 대표 이미지

핵심 메시지

GPT는 'Generative Pre-trained Transformer'의 약자로, 사전 학습된 데이터를 바탕으로 다음 토큰을 예측해 문장을 생성한다.
입력은 토큰화로 숫자가 되고, 벡터 임베딩으로 의미를 얻으며, 위치 인코딩으로 단어 순서 정보가 더해진다.
셀프 어텐션은 토큰들이 서로 '대화'하게 해 'river bank'와 'ICICI bank'처럼 문맥에 따라 의미를 구분한다.
마지막에 선형 계층이 다음 토큰의 확률 분포를 내고 소프트맥스가 하나를 고르며, 온도(temperature)가 창의성을 조절한다.

쉽게 이해하기

영상은 ChatGPT, 제미나이, 클로드 같은 LLM이 내부에서 어떻게 동작하는지를 코드까지 곁들여 풀어낸다. 'Hey how are you?'를 입력하면 사람이 쓴 듯한 답이 나오는 게 마법처럼 보이지만, 실제로는 과학과 수학, 코딩으로 환원된다는 것이 핵심이다. GPT의 'Generative'는 검색엔진처럼 색인된 결과를 가져오는 게 아니라, 입력에 이어질 다음 시퀀스를 즉석에서 '생성'한다는 뜻이다.

그 생성 능력의 토대는 'Pre-trained', 즉 인터넷 데이터·책·대화·역사 데이터로 미리 학습한 결과다. 그리고 'Transformer'는 구글의 논문 'Attention Is All You Need'(2017)에서 나온 아키텍처로, 원래 구글 번역에 쓰였다. 트랜스포머는 입력 시퀀스를 받아 다음 단어 하나를 예측하고, 그 결과를 다시 입력에 덧붙여 끝 토큰이 나올 때까지 반복하는 '고성능 자동완성'으로 비유된다.

첫 단계는 인코딩이다. 컴퓨터는 영어·힌디어 같은 글자를 모르고 숫자에 능하므로, 입력을 토큰으로 쪼개 숫자로 매핑한다(토큰화). 모델마다 어휘집(vocabulary)과 토큰화 방식이 다르며, Tiktokenizer 같은 도구나 허깅페이스 transformers의 AutoTokenizer로 직접 확인할 수 있다. 이어 각 토큰을 벡터 임베딩으로 바꾼다. 임베딩은 데이터의 수치 표현으로 의미와 관계(semantic meaning)를 담는다. 예컨대 cat-milk, dog-pedigree의 관계처럼 비슷한 의미는 벡터 공간에서 방향과 거리로 드러난다. OpenAI의 임베딩 모델은 기본 1536 또는 3072 차원을 제공하며, 차원을 줄이면 의미 표현이 다소 느슨해진다.

둘째 단계는 위치 인코딩이다. 'the dog chased cat'과 'the cat chased dog'는 토큰 구성은 같지만 의미가 전혀 다르다. 그래서 사인·코사인 공식을 이용해 각 토큰의 위치 정보를 임베딩에 더해 순서를 보존한다. 핵심은 셀프 어텐션이다. RNN 시절에는 시퀀스를 하나씩 처리해 느렸고 문맥을 잃었다. 'river bank'의 bank와 'ICICI bank'의 bank가 전혀 다른 의미인데도 같은 벡터가 됐던 문제를, 셀프 어텐션은 토큰들이 서로 대화하며 주변 문맥에 맞게 임베딩을 바꾸도록 해 해결한다. 멀티 헤드 어텐션은 여러 헤드가 동시에 서로 다른 측면(예: 기차 안의 개, 자고 있음, 갈색)을 포착해 문맥 이해를 끌어올린다.

이후 정규화 계층과 피드포워드 계층을 거치는 과정이 반복되며 출력 토큰이 다듬어진다. 마지막에 선형(linear) 계층이 다음 토큰 후보들의 확률 분포를 만들고, 소프트맥스가 그중 하나를 고른다. 이때 온도(temperature)를 높이면 더 다양한 토큰을 고를 확률이 커져 창의성이 올라간다. 모델 사용에는 두 단계가 있는데, 학습 단계에서는 기대 출력과 비교해 교차 엔트로피 손실을 계산하고 역전파로 가중치를 갱신하며, 추론 단계에서는 역전파 없이 학습된 모델을 그대로 사용한다. 발표자는 애플리케이션 개발자라면 내부 수학을 깊게 파지 않아도 '어떻게 동작하는지' 정도만 알면 충분하다고 강조한다.

주요 인사이트

LLM의 텍스트 생성은 결국 '다음 토큰 예측 → 덧붙이기 → 반복'이라는 자동완성 루프로 요약된다.
토큰화·임베딩·위치 인코딩은 글자를 숫자로, 숫자를 의미로, 의미를 순서로 바꾸는 단계적 변환이다.
셀프 어텐션은 같은 단어라도 문맥에 따라 다른 의미를 갖도록 토큰 간 관계를 학습하는 핵심 메커니즘이다.
온도(temperature)는 소프트맥스가 확률 분포에서 토큰을 고르는 방식을 바꿔 출력의 창의성을 조절한다.

자주 묻는 질문

GPT는 무엇의 약자인가요?

Generative Pre-trained Transformer의 약자입니다. 사전 학습(pre-trained)된 데이터를 바탕으로 트랜스포머 구조가 다음 토큰을 생성(generative)하는 모델을 뜻합니다.

토큰화와 벡터 임베딩은 어떻게 다른가요?

토큰화는 입력 텍스트를 토큰으로 쪼개 고정된 숫자로 매핑하는 단계이고, 벡터 임베딩은 그 토큰을 의미와 관계를 담은 수치 벡터로 바꾸는 단계입니다. 임베딩 덕분에 비슷한 의미의 단어가 벡터 공간에서 가깝게 표현됩니다.

온도(temperature)는 어떤 역할을 하나요?

선형 계층이 만든 다음 토큰 확률 분포에서 소프트맥스가 어떤 토큰을 고를지 조절하는 값입니다. 값을 높이면 확률이 낮은 토큰도 선택될 여지가 커져 출력이 더 창의적이고 다양해집니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗