AI VIDEO BRIEFING

GPT 작동 원리 해설 - 토큰화·임베딩·어텐션·샘플링으로 본 LLM 내부

NDC 발표 'Inside GPT'를 정리했습니다. 대형 언어 모델이 텍스트를 토큰으로 바꾸고 임베딩과 어텐션으로 다음 토큰을 예측하며, 온도와 top-p 샘플링으로 무작위성을 더하는 과정을 GPT-2 예시로 풀어냅니다.

출처: NDC Conferences2026년 1월 27일AI 보조 요약

GPT 내부 들여다보기: 토큰화·임베딩·어텐션으로 풀어본 언어 모델의 작동 원리 영상 대표 이미지

핵심 메시지

대형 언어 모델이 하는 일은 본질적으로 주어진 토큰 다음에 올 가장 확률 높은 토큰을 예측하는 것이며, 사실이 아닌 그럴듯한 답(환각)도 같은 원리로 생성된다.
텍스트는 토큰화를 거쳐 정수 열로 바뀌고, 언어별로 토큰 효율이 달라 영어가 가장 효율적이며 비용·속도·정확도에 영향을 준다.
토큰은 임베딩을 통해 고차원 벡터로 변환되며, 코사인 유사도 등으로 의미적 유사성을 계산할 수 있다.
트랜스포머는 토큰 임베딩과 위치 임베딩을 더한 뒤, 쿼리·키·값을 이용한 어텐션으로 토큰 간 관계를 파악해 다음 토큰의 확률을 만든다.
모델 자체는 결정론적이며, 무작위성은 온도와 top-p 같은 샘플링 단계에서 생긴다.

쉽게 이해하기

발표자 앨런 스미스는 GPT-2를 예시로 대형 언어 모델 내부의 수학을 단계별로 보여 준다. 먼저 모델이 자신에 대해 사실과 허구를 섞어 답하는 사례로 '환각'을 설명한다. 모델은 입력된 토큰 다음에 올 가장 확률 높은 토큰을 생성할 뿐이어서, 같은 형식의 질문이라도 직업만 바꾸면 그럴듯한 거짓 정보를 만들어낸다. 때로는 사실과 일치하기도 하지만 그것은 학습 데이터의 통계적 결과다.

언어 모델 API 내부는 토큰화로 시작한다. 텍스트는 정수 열로 인코딩되고, 모델은 코드와 방대한 가중치(GPT-2는 약 1억 2600만 개의 부동소수점 수)를 이용해 각 토큰이 다음에 올 확률(로짓)을 예측한다. 발표자는 같은 입력에 모델은 항상 같은 확률 분포를 내놓으며, 비결정성은 그다음의 샘플링 과정에서 나온다고 강조한다. 토큰은 한 번에 하나씩 생성되므로 긴 출력은 이 과정을 여러 번 반복한다.

토큰화는 바이트 페어 인코딩 방식으로 자주 등장하는 문자열을 토큰으로 만든다. 'tokenization'이 'token'과 'ization'으로 쪼개지듯 접두·접미가 분리되며, 같은 단어라도 앞 공백이나 대소문자에 따라 다른 토큰이 된다. 언어별 효율 차이도 커서 영어가 가장 효율적이고, 학습 데이터가 적었던 언어는 같은 내용에 더 많은 토큰을 쓴다. 발표자는 비용·처리량·최대 입력이 모두 토큰 수에 좌우되므로 영어로 프롬프트를 쓰는 것이 유리하다고 말한다.

신경망은 정수가 아니라 부동소수점을 다루므로 토큰을 임베딩 벡터로 바꾼다. GPT-2에서 한 토큰은 768차원 벡터가 되며, 색상을 RGB 3차원으로 보는 비유로 고차원 공간의 유사성을 설명한다. 코사인 유사도는 벡터 사이 각도를, 유클리드 유사도는 거리를 본다. 발표자는 단어·토큰 임베딩을 시각화하면 이름·국가·종교·음악 등 비슷한 의미끼리 군집을 이루는 것을 보여 준다.

트랜스포머는 입력 토큰의 토큰 임베딩과 위치 임베딩을 더해 모델에 넣는다. 순서가 중요하기 때문에 위치 정보를 따로 더하는 것이다. 이후 멀티헤드 어텐션이 쿼리·키·값으로 토큰들이 서로 어떻게 연결되는지 계산하며, GPT-2는 12개 층과 12개 헤드에서 이 계산을 반복한다. 마지막 선형 층이 각 토큰이 다음에 올 확률을 내놓는다.

마지막으로 샘플링이 출력의 무작위성을 만든다. 가장 확률 높은 토큰만 고르는 그리디 방식은 결정론적이지만 반복적이고 단조롭다. 온도는 확률 분포를 조정해 값이 낮으면 예측 가능하고 높으면 창의적이지만 너무 높으면 무의미한 출력이 나온다. top-p(뉴클리어스 샘플링)는 상위 확률 토큰 집합에서만 선택하게 해 부적절한 토큰을 걸러내는 데 유용하다. 발표자는 여러 수를 내다보는 빔 서치 같은 추가 기법도 언급한다.

주요 인사이트

언어 모델은 '이해'한다기보다 다음 토큰을 확률적으로 예측하는 장치이며, 환각도 정상 작동의 부산물이다 - 정직한 정보와 그럴듯한 거짓이 같은 메커니즘에서 나온다.
같은 입력에 대해 모델은 결정론적으로 동일한 확률 분포를 내며, 우리가 보는 다양성은 온도·top-p 같은 샘플링 설정에서 비롯된다.
언어별 토큰 효율이 비용·속도·정확도를 좌우하므로, 영어로 프롬프트를 작성하면 더 저렴하고 빠르며 정확해질 수 있다.
임베딩은 토큰을 고차원 벡터로 바꿔 의미적 유사성을 계산할 수 있게 하며, 이는 벡터 검색·추천·유사 콘텐츠 탐색의 토대가 된다.
트랜스포머의 어텐션은 위치 임베딩과 쿼리·키·값 계산으로 토큰 간 장기 의존성과 문맥을 파악해 언어의 모호함을 해소한다.
'SolidGoldMagikarp' 같은 글리치 토큰 사례는 토큰화 어휘는 만들어졌지만 학습 데이터에서 제외되어 모델이 그 의미를 모르는 경우가 있음을 보여 준다.

자주 묻는 질문

대형 언어 모델은 근본적으로 무엇을 하는 장치인가요?

주어진 토큰 열 다음에 올 각 토큰의 확률을 예측하는 장치입니다. 가장 확률 높은 토큰을 이어 붙여 문장을 생성하며, 사실 여부와 무관하게 통계적으로 그럴듯한 토큰을 내놓기 때문에 환각도 같은 원리로 발생합니다.

모델이 매번 다른 답을 내는 이유는 무엇인가요?

모델 자체는 같은 입력에 항상 같은 확률 분포를 내놓는 결정론적 장치입니다. 비결정성은 그 분포에서 실제 토큰을 고르는 샘플링 과정에서 생기며, 온도와 top-p 같은 매개변수가 무작위성을 조절합니다.

왜 영어로 프롬프트를 쓰는 것이 유리하다고 하나요?

언어마다 토큰화 효율이 다르기 때문입니다. 학습 데이터가 풍부한 영어는 같은 내용을 더 적은 토큰으로 표현하는데, 비용·처리량·최대 입력 길이가 토큰 수에 좌우되고 정확도와도 상관이 있어 영어 프롬프트가 더 저렴하고 빠르며 정확할 수 있습니다.

트랜스포머에서 위치 임베딩은 왜 필요한가요?

토큰의 순서가 의미를 바꾸기 때문입니다. 예를 들어 같은 단어들로 이루어진 문장도 배열이 달라지면 감정이 반대가 됩니다. 그래서 토큰 임베딩에 위치 임베딩을 더해 순서 정보를 모델에 전달하고, 어텐션이 토큰 간 관계를 파악합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗