AI VIDEO BRIEFING

트랜스포머 쉽게 이해하기: 챗GPT를 움직이는 모델 구조와 어텐션의 원리

GPT가 어떻게 작동하는지, 인공신경망부터 토큰화·임베딩·셀프 어텐션·소프트맥스까지 챗GPT 뒤의 트랜스포머 구조를 비전공자도 이해할 수 있게 단계별로 정리했다.

출처: Leon Petrou2024년 3월 5일AI 보조 요약

챗GPT는 어떻게 다음 단어를 맞히나: 트랜스포머 구조를 쉽게 풀어보기 영상 대표 이미지

핵심 메시지

GPT는 'Generative Pre-trained Transformer'의 약자로, 트랜스포머라는 신경망 구조 위에서 작동한다.
거대언어모델은 방대한 텍스트로 다음 단어를 예측하며 학습하고, 틀린 만큼 파라미터(가중치)를 조금씩 조정하면서 똑똑해진다.
모델 내부에서는 단어를 숫자로 바꾸는 토큰화, 의미를 좌표로 표현하는 임베딩, 단어 순서를 담는 위치 임베딩이 차례로 일어난다.
셀프 어텐션은 문장 속 모든 단어가 서로에게 얼마나 중요한지 가중치를 매겨 맥락을 파악하는 핵심 메커니즘이다.
모델은 어휘별 점수(로짓)를 만들고 소프트맥스로 확률로 바꿔 가장 가능성 높은 단어를 고른 뒤, 이 과정을 반복해 한 단어씩 문장을 생성한다.

쉽게 이해하기

영상은 보통 석사 학위나 수년의 공부가 필요한 GPT의 내부 구조를 한 편으로 압축해 설명하겠다고 시작한다. 출발점은 인간의 뇌를 디지털로 모델링하려는 시도다. 뉴런과 시냅스를 노드와 가중치 연결로 옮긴 것이 인공신경망이며, 입력층·은닉층·출력층을 거쳐 예측을 내놓는다. 이렇게 노드 사이의 가중치를 조정하는 과정이 곧 '학습'이고, 여기서 딥러닝이라는 분야가 생겨났다.

모델의 크기는 파라미터 수로 가늠된다. 영상은 GPT-1이 1억 1700만, GPT-2가 15억, GPT-3가 1750억 파라미터였다고 소개하며, 파라미터가 많을수록 더 복잡한 문제를 풀 수 있다고 설명한다. (GPT-4의 수치는 공개되지 않아 영상도 온라인 추정치임을 분명히 밝힌다.)

학습 방식은 의외로 단순하다. 위키피디아·책 등에서 모은 방대한 원시 텍스트를 넣고, 모델이 다음 단어를 추측한다. 예측한 단어와 실제 단어의 차이를 수학적으로 계산해 '손실'을 줄이는 방향으로 파라미터를 자동 조정한다. 이 과정을 데이터 전체에 걸쳐 반복할수록 다음 단어 예측이 정확해진다.

GPT라는 이름은 새로운 콘텐츠를 만들어내는 'Generative', 미리 학습됐다는 'Pre-trained', 그리고 모델 구조를 가리키는 'Transformer'를 뜻한다. 트랜스포머는 2017년 논문 '어텐션이 전부다(Attention Is All You Need)'에서 제시됐고, 이를 토대로 2018년 GPT-1이 만들어졌다. 구글의 모델도 같은 트랜스포머 구조에 기반한다.

트랜스포머의 처리 과정은 단계로 나뉜다. 먼저 토큰화는 단어를 토큰 ID라는 숫자로 바꾼다. 이어 임베딩은 각 토큰을 수백 차원 공간의 한 위치(벡터)로 매핑하는데, 'fish'와 'fisherman'처럼 의미가 가까운 단어는 공간에서도 가깝게 놓인다. 두 벡터의 거리를 계산하면 단어 간 의미 유사도를 수치로 알 수 있다. 여기에 단어의 순서를 담는 위치 임베딩을 더해, 문장에서 어순이 갖는 의미까지 반영한다.

핵심은 셀프 어텐션이다. 문장 속 각 단어가 다른 모든 단어에 대해 얼마나 중요한지 가중치를 부여해 맥락을 파악한다. 이를 여러 번 병렬로 수행하는 것이 멀티헤드 어텐션으로, 각 헤드는 관계·행동·운율 등 서로 다른 측면을 포착한다. 마지막으로 피드포워드 네트워크가 어휘마다 점수(로짓)를 매기고, 소프트맥스가 이를 합이 1인 확률로 바꿔 가장 확률 높은 단어를 고른다. 선택된 토큰 ID는 다시 단어로 복원(역토큰화)되며, 모델은 이 전체 과정을 반복해 한 단어씩 답을 이어 쓴다.

주요 인사이트

GPT가 하는 일은 본질적으로 '가장 그럴듯한 다음 단어 맞히기'다. 학습도 생성도 모두 다음 단어 예측이라는 같은 원리 위에 있다.
지능의 차이는 상당 부분 파라미터 규모에서 온다. 더 많은 가중치 연결이 더 많은 학습과 더 복잡한 과제 수행을 가능하게 한다.
임베딩은 언어를 수학으로 다루게 해준다. 단어를 좌표로 바꾸면 의미의 유사성을 벡터 간 거리로 계산할 수 있다.
위치 임베딩은 큰 도약이었다. 과거 번역기가 단어를 순차적으로만 옮겨 어색했던 것과 달리, 단어의 상대적 위치를 반영하면서 문맥과 어순을 제대로 이해하게 됐다.
멀티헤드 어텐션의 각 헤드가 무엇을 학습하는지는 사람이 미리 정한 것이 아니라 모델이 스스로 만들어낸 것이어서, 그 의미를 해석하기 어려울 때가 많다.

자주 묻는 질문

GPT는 무엇의 약자인가?

Generative Pre-trained Transformer의 약자다. 새로운 콘텐츠를 생성하고(Generative), 데이터로 미리 학습됐으며(Pre-trained), 트랜스포머 구조(Transformer)를 사용한다는 의미다.

거대언어모델은 어떻게 학습하는가?

위키피디아·책 등에서 모은 방대한 텍스트로 다음 단어를 예측하게 하고, 예측한 단어와 실제 단어의 차이(손실)를 계산해 그 차이를 줄이는 방향으로 파라미터를 자동 조정한다. 이 과정을 반복할수록 예측이 정확해진다.

셀프 어텐션은 무슨 역할을 하는가?

문장 속 각 단어가 다른 모든 단어에 대해 얼마나 중요한지 가중치를 매겨 맥락을 파악한다. 이를 여러 번 병렬로 수행하는 멀티헤드 어텐션에서는 각 헤드가 단어 간 관계나 행동 등 서로 다른 측면을 포착한다.

트랜스포머 구조는 언제 처음 제시됐나?

2017년 논문 '어텐션이 전부다(Attention Is All You Need)'에서 제시됐고, 이를 바탕으로 2018년 GPT-1이 개발됐다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗