AI VIDEO BRIEFING

트랜스포머 구조 쉬운 설명: 워드 임베딩부터 어텐션·인코더·디코더까지

챗GPT의 기반인 트랜스포머를 워드 임베딩, 문맥 임베딩, 어텐션, 멀티헤드, 인코더·디코더 순서로 직관적으로 풀어 설명합니다. AI 입문자를 위한 정리입니다.

출처: codebasics2025년 1월 9일AI 보조 요약

트랜스포머(Transformer) 쉽게 이해하기: 챗GPT를 움직이는 딥러닝 구조 영상 대표 이미지

핵심 메시지

트랜스포머는 현대 AI 붐을 이끈 딥러닝 구조이며, 언어 모델의 근본 목표는 문장에서 다음 단어를 예측하는 것이다.
머신러닝 모델은 텍스트가 아닌 숫자를 이해하므로, 단어를 의미가 담긴 벡터(워드 임베딩)로 표현한다. 'king - man + woman = queen' 같은 연산이 가능하다.
정적 임베딩은 한 단어에 고정값을 주지만, 같은 단어도 문맥에 따라 뜻이 달라지므로 문맥 임베딩(contextual embedding)이 필요하다.
2017년 'Attention Is All You Need' 논문의 어텐션은 query·key·value로 각 단어가 주변 단어에 얼마나 주목하는지를 계산해 문맥 임베딩을 만든다.
트랜스포머는 인코더(문맥 임베딩 생성)와 디코더(다음 단어 예측)로 구성되며, BERT는 인코더만, GPT는 디코더 중심 구조를 사용한다.

쉽게 이해하기

챗GPT는 GPT라는 모델로 작동하고, GPT는 트랜스포머라는 딥러닝 구조에 기반한다. 언어 모델의 근본 동작은 단순하다. 질문이 들어오면 다음 단어를 예측하고, 그 단어를 다시 입력에 더해 또 다음 단어를 예측하는 일을 반복해 완성된 답을 만든다. GPT가 '대형' 언어 모델인 이유는 수십억 개의 파라미터와 방대한 학습 데이터 때문이다.

모델은 텍스트가 아닌 숫자를 다루므로 단어를 벡터로 표현한다. 'king'을 권위·성별 등 여러 특징의 숫자 묶음으로 나타내면, king - man + woman = queen 같은 벡터 연산이 가능해진다. 실제 구글 word2vec은 300차원, GPT는 약 1만 2천 차원의 임베딩을 쓰며, 이 특징들은 사람이 정한 것이 아니라 위키피디아·책 등 방대한 텍스트로 신경망을 학습해 얻은 것이다.

문제는 정적 임베딩이다. 'track'은 기차 선로일 수도, 추적일 수도 있는데 고정 벡터로는 문맥을 담지 못한다. 그래서 'rice dish', 'Indian rice dish'처럼 주변 단어가 원래 임베딩을 변형해 의미를 더하는 문맥 임베딩이 필요하다. 인코더의 역할이 바로 각 토큰의 문맥 임베딩을 생성하는 것이다.

핵심은 어텐션이다. 각 단어는 주변 단어로부터 '주목'을 받아 의미가 풍부해진다. query(무엇을 알고 싶은지), key(각 단어가 자신을 설명), value(실제 기여할 내용)의 도트곱으로 어텐션 점수를 구하고, 소프트맥스로 확률화한 뒤 value를 가중합한다. WQ·WK·WV 행렬은 학습(사전학습) 과정에서 역전파로 확정된다.

멀티헤드 어텐션은 여러 어텐션 헤드가 형용사·동사·대명사 등 서로 다른 관계를 동시에 포착해 합친다. 이후 피드포워드 신경망이 비선형 변환으로 임베딩을 더 풍부하게 다듬고, 잔차 연결과 정규화를 거쳐 한 블록을 이룬다(BERT-base 12층, BERT-large 24층). 디코더는 인코더의 문맥 임베딩을 받아 다음 단어를 예측하며, 번역에서는 query가 번역 문장에서, key·value가 원문에서 오는 '크로스 어텐션'을 쓴다.

주요 인사이트

단어 임베딩의 '방향 벡터'는 의미를 담는다. king↔queen을 잇는 벡터를 성별 방향으로 보면, uncle에 더해 aunt를 얻을 수 있다(country→capital 방향도 마찬가지).
같은 단어라도 문맥이 다르면 다음 단어 확률이 바뀐다. 'rice dish' 뒤엔 리소토가, 'Indian rice dish' 뒤엔 비리야니가 높은 확률이 된다.
어텐션 점수 계산에서 query·key 도트곱을 키 벡터 차원의 제곱근으로 나누는 스케일링은 값이 지나치게 커지지 않게 하는 수치 안정화 장치다.
학습 데이터는 사람이 라벨링하지 않는다. 문장을 잘라 다음 단어를 정답(y)으로 삼는 자기지도(self-supervised) 방식으로 X·Y 쌍을 만든다.
발표자는 추가 학습 자료로 3Blue1Brown 채널의 트랜스포머 영상과 Transformer Explainer 시각화 도구를 추천한다.

자주 묻는 질문

언어 모델의 근본 목표는 무엇인가요?

문장에서 다음 단어를 예측하는 것입니다. 예측한 단어를 다시 입력에 더해 또 다음 단어를 예측하는 과정을 반복해 완성된 답을 만들어 냅니다.

정적 임베딩과 문맥 임베딩의 차이는 무엇인가요?

정적 임베딩은 한 단어에 고정된 벡터를 부여합니다. 하지만 'track'처럼 같은 단어도 문맥에 따라 뜻이 달라지므로, 주변 단어가 원래 임베딩을 변형해 의미를 반영하는 문맥 임베딩이 필요합니다.

BERT와 GPT는 트랜스포머 구조에서 어떻게 다른가요?

BERT는 인코더 부분만 사용해 입력 문장의 문맥 임베딩을 만듭니다. GPT는 디코더 중심 구조로 입력을 받아 다음 단어를 예측합니다. 둘 다 트랜스포머 아키텍처에 기반한 서로 다른 구현입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗