AI VIDEO BRIEFING

트랜스포머 구조 쉽게 이해하기 — AI·LLM이 다음 단어를 예측하는 원리

GPT 같은 대규모 언어 모델의 토대인 디코더 전용 트랜스포머를 토큰화·임베딩·어텐션·학습까지 단계별로 풀어 설명한다. AI가 다음 단어를 예측해 글을 생성하는 원리를 직관적으로 정리했다.

출처: AI Search2026년 3월 25일AI 보조 요약

AI는 어떻게 작동하나: 트랜스포머 구조를 단계별로 풀어보기 영상 대표 이미지

핵심 메시지

GPT·Gemini 등 현대 AI 모델의 토대는 2017년 논문 "Attention is All You Need"가 제시한 트랜스포머 구조이며, 챗봇은 그중 디코더만 쓰는 형태다.
트랜스포머는 본질적으로 다음에 올 가장 확률 높은 단어 하나를 예측하고, 그 단어를 문장에 덧붙이는 과정을 반복해 응답을 완성한다.
텍스트는 서브워드 단위로 토큰화한 뒤, 의미를 담은 벡터(임베딩)와 위치 정보(포지셔널 인코딩)로 변환된다.
어텐션(QKV)은 문장 속 단어들이 서로 얼마나 관련 있는지 따져 맥락을 파악하는 핵심 메커니즘이며, 여러 헤드가 서로 다른 관계를 동시에 본다.
모델은 처음엔 모두 무작위 값에서 출발해, 역전파와 경사하강법으로 오차를 줄이며 수백만~수십억 번 학습해 자연어를 생성하게 된다.

쉽게 이해하기

영상은 GPT, Gemini, DeepSeek 같은 현대 AI 모델이 내부에서 실제로 어떻게 작동하는지를 풀어 설명한다. 이 모든 모델의 토대는 구글이 발표한 논문 "Attention is All You Need"가 소개한 트랜스포머 구조다. 모델은 더 커지고 더 많은 데이터로 학습됐지만 기본 구조는 그대로다. 원래 트랜스포머는 번역용으로 인코더와 디코더 두 부분을 가졌지만, 챗봇에는 인코더가 필요 없어 디코더만 쓰는 형태를 다룬다.

큰 그림은 단순하다. 트랜스포머는 문장 조각을 입력받아 다음에 올 가장 확률 높은 단어를 내놓고, 그 단어를 원래 문장에 덧붙인 뒤 같은 과정을 반복한다. 한 번에 단어 하나씩, 응답이 끝날 때까지 이어간다. "그저 다음 단어 예측"이 어떻게 긴 글을 쓰느냐 싶지만, 실제로 그렇게 동작한다. 모델은 언어가 아니라 숫자만 이해하므로, 먼저 텍스트를 숫자로 바꾸는 토큰화가 필요하다. 단어 전체에 번호를 매기면 어휘가 너무 커지고, 글자 단위는 의미를 잃기에, 그 중간인 서브워드(unhappy → un + happy)로 쪼갠다. 이렇게 하면 어휘 크기를 적절히 유지하면서 처음 보는 단어도 부분으로 나눠 추정할 수 있다.

토큰만으로는 의미가 없어, 입력 임베딩 단계에서 각 토큰을 긴 숫자 벡터로 바꾼다(GPT-3는 벡터당 12,288개의 숫자). 의미가 비슷한 단어는 이 고차원 공간에서 가까이 놓이며, 각 차원이 성별·나이 같은 개념을 나타낸다고 직관적으로 이해할 수 있다. 다만 트랜스포머는 모든 단어를 동시에 처리해 순서를 모르므로, 포지셔널 인코딩으로 위치 정보를 더한다. 원 논문은 사인·코사인 함수를 써서 위치마다 고유한 숫자 패턴(일종의 지문)을 만들어 임베딩에 더했다.

핵심은 마스크드 멀티헤드 어텐션이다. 각 단어가 문장 속 다른 단어들과 자기 자신을 보며 어느 것이 가장 관련 있는지 따져 맥락을 파악한다. 이를 위해 단어마다 쿼리(Q)·키(K)·값(V) 벡터를 학습으로 만든다. Q는 "내게 관련 있는 정보는?"이라 묻고, K는 "내가 이런 정보다"라며 라벨을 내밀고, V는 실제 내용을 제공한다. Q와 K의 유사도를 표로 계산하고, 미래 단어를 보지 못하도록 마스크를 씌운 뒤(마스크드), 스케일링과 소프트맥스로 안정화하고 V를 곱해 맥락이 녹아든 새 벡터를 얻는다. 관계를 정의하는 방식이 여러 가지라 헤드를 여러 개 둬(멀티헤드) 각기 다른 맥락을 보고, 결과를 이어 붙여(concat) 또 다른 행렬과 곱한다.

어텐션을 거치면 원래의 의미·위치 정보가 흐려질 수 있어, 바로 뒤에 add & norm 단계를 둔다. add는 원래 벡터를 결과에 다시 더하는 잔차(스킵) 연결로 정보를 보존하고, norm은 값의 평균을 0, 표준편차를 1로 맞춰 학습을 안정화한다. 이어 피드포워드 신경망이 단어마다 더 깊은 특징을 뽑고, 다시 add & norm을 거친다. 이것이 디코더 블록 하나이며, 블록을 여러 개 쌓을수록 문장을 점점 더 깊이 이해한다. 마지막에는 선형 층과 소프트맥스로 전체 어휘에 대한 확률 분포를 만들어 다음 단어를 뽑는다. 학습은 모든 값을 무작위로 시작해, 틀린 예측의 오차를 역전파로 거슬러 보내고 경사하강법으로 값을 조금씩 조정하는 과정을 수없이 반복하는 것이다.

주요 인사이트

"다음 단어 예측"이라는 단순한 목표만으로도, 충분한 규모와 학습을 거치면 긴 글과 복잡한 추론처럼 보이는 출력이 만들어진다는 점이 트랜스포머의 핵심 직관이다.
서브워드 토큰화는 어휘 크기와 표현력 사이의 균형을 맞추는 절충안으로, 처음 보는 단어·신조어·오타까지 부분 의미로 다룰 수 있게 해준다.
어텐션 메커니즘은 문장의 모든 단어를 동시에 보고 관계를 따지기 때문에, 이전 모델이 어려워하던 장거리 문맥(예: "그것"이 무엇을 가리키는가)을 잘 처리한다.
잔차(스킵) 연결과 정규화는 층을 깊게 쌓아도 원래 정보를 잃지 않게 해주는 장치로, 깊은 모델을 안정적으로 학습시키는 데 필수적이다.
모델의 모든 가중치가 무작위에서 출발해 역전파와 경사하강법으로만 다듬어진다는 사실은, 거대한 능력이 사실 단순한 오차 수정 루프의 반복에서 나온다는 점을 보여준다.

자주 묻는 질문

트랜스포머는 어떻게 글을 생성하나요?

문장 조각을 입력받아 다음에 올 가장 확률 높은 단어 하나를 예측하고, 그 단어를 문장에 덧붙인 뒤 같은 과정을 응답이 끝날 때까지 반복합니다. 한 번에 한 단어씩 이어 붙이는 방식입니다.

어텐션의 Q·K·V는 각각 무슨 역할인가요?

쿼리(Q)는 현재 단어가 "내게 관련 있는 정보는?"이라고 묻는 역할, 키(K)는 각 단어가 자신이 어떤 정보인지 라벨을 내미는 역할, 값(V)은 매칭되면 제공하는 실제 내용입니다. Q와 K의 유사도로 관련성을 따지고 V를 곱해 맥락을 반영합니다.

토큰화를 서브워드 단위로 하는 이유는 무엇인가요?

단어 전체에 번호를 매기면 어휘가 지나치게 커지고, 글자 단위는 의미를 잃기 때문입니다. unhappy를 un과 happy로 나누는 식의 서브워드 방식은 어휘 크기를 적절히 유지하면서 처음 보는 단어도 부분 의미로 추정할 수 있게 합니다.

모델은 어떻게 학습되나요?

임베딩과 각종 행렬 값을 모두 무작위로 시작해, 다음 단어를 틀리게 예측하면 오차(손실)가 생깁니다. 역전파로 어느 값이 오차에 얼마나 기여했는지 거슬러 찾아 경사하강법으로 조금씩 조정하며, 이 과정을 수백만~수십억 번 반복합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗