AI VIDEO BRIEFING

대규모 언어 모델(LLM) 작동 원리: 다음 단어 예측과 트랜스포머 쉽게 이해하기

대규모 언어 모델은 입력된 문장 다음에 올 단어를 확률로 예측하는 거대한 함수입니다. 수천억 개의 매개변수, 사전 훈련과 인간 피드백 강화학습(RLHF), 트랜스포머와 어텐션까지 LLM의 핵심 작동 원리를 일반 독자 눈높이로 정리했습니다.

출처: 3Blue1Brown2024년 11월 20일AI 보조 요약

대규모 언어 모델(LLM)은 어떻게 작동할까 — 다음 단어를 예측하는 거대한 함수 영상 대표 이미지

핵심 메시지

대규모 언어 모델은 주어진 텍스트 다음에 올 단어를 확률적으로 예측하는 수학 함수다.
'대규모'라는 이름은 모델의 동작을 결정하는 매개변수(가중치)가 수천억 개에 이르기 때문에 붙었다.
모델은 인터넷의 방대한 텍스트로 사전 훈련된 뒤, 인간 피드백 기반 강화학습(RLHF)으로 더 쓸모 있는 답변을 하도록 다듬어진다.
2017년 구글이 제안한 트랜스포머는 단어를 하나씩이 아니라 한꺼번에 병렬로 처리해 언어 모델 발전의 전환점이 됐다.
어텐션은 문맥에 따라 같은 단어의 의미를 구별하게 해 주는 트랜스포머의 핵심 작업이다.

쉽게 이해하기

챗봇과의 대화는 사실 '다음 단어 맞히기'의 연속이다. 사람과 AI 비서가 등장하는 대본에서 AI의 답변 부분이 찢겨 나갔다고 상상해 보자. 어떤 글을 넣으면 그 다음에 올 단어를 예측하는 기계가 있다면, 대본을 넣고 한 단어씩 반복해서 예측하게 해 답변을 완성할 수 있다. 대규모 언어 모델이 바로 이런 '다음 단어 예측 함수'다.

이 모델은 단어 하나를 확정해서 내놓는 대신, 다음에 올 수 있는 모든 단어에 확률을 매긴다. 이때 확률이 낮은 단어도 가끔 무작위로 섞어 고르면 답변이 더 자연스러워진다. 그래서 모델 자체는 결정론적이어도 같은 질문에 매번 조금씩 다른 답이 나온다.

모델은 인터넷에서 모은 엄청난 양의 텍스트로 예측하는 법을 배운다. GPT-3 학습에 쓰인 글을 사람이 하루 종일 읽어도 2600년이 넘게 걸릴 정도이며, 이후 모델들은 그보다 훨씬 많은 양을 학습한다. 학습은 매개변수(가중치)라는 수많은 다이얼을 조정하는 과정으로, 처음엔 무작위라 횡설수설하지만 예시 텍스트의 정답과 비교해 가며 역전파 알고리즘으로 조금씩 다듬어진다.

이 계산량은 상상을 초월한다. 1초에 십억 번씩 덧셈과 곱셈을 한다고 해도 가장 큰 모델 하나를 학습하는 데는 1억 년이 훌쩍 넘게 걸린다. 그런데 여기까지는 '사전 훈련'일 뿐이다. 단순히 다음 단어를 잘 맞히는 것과 좋은 비서가 되는 것은 다르기 때문에, 인간이 잘못된 답을 잡아내 매개변수를 조정하는 인간 피드백 기반 강화학습(RLHF)이 뒤따른다. 이런 병렬 계산은 GPU 같은 특수 칩으로만 가능하다.

2017년 구글이 트랜스포머를 내놓기 전까지 대부분의 모델은 단어를 하나씩 처리했지만, 트랜스포머는 모든 단어를 한꺼번에 병렬로 다룬다. 먼저 각 단어를 의미를 담은 숫자 벡터로 바꾸고, '어텐션'으로 벡터들이 서로를 참조해 문맥에 맞게 의미를 구별한다(예: 'bank'가 은행인지 강기슭인지). 이어 순방향 신경망이 더 많은 언어 패턴을 반영하며, 이 과정을 여러 번 반복해 다음 단어를 정확히 예측한다.

주요 인사이트

수조 개에 달하는 예시로 훈련하면 모델은 외운 내용뿐 아니라 처음 보는 텍스트에 대해서도 그럴듯한 예측을 하게 된다.
확률이 낮은 단어를 무작위로 섞어 고르는 설계 덕분에, 결정론적 모델인데도 답변이 매번 달라지고 더 자연스러워진다.
연구진은 각 단계의 큰 구조만 설계할 뿐, 수천억 개 매개변수에서 비롯된 모델의 성격과 행동은 일종의 창발 현상이라 '왜 그렇게 예측했는가'를 정확히 짚어내기 어렵다.
어텐션은 같은 단어라도 문맥에 따라 다른 의미를 갖도록 벡터끼리 정보를 주고받게 하는 트랜스포머의 핵심이다.

자주 묻는 질문

대규모 언어 모델에서 '대규모'는 무엇을 뜻하나요?

모델의 동작을 결정하는 매개변수(가중치)가 수천억 개에 이를 만큼 많기 때문에 '대규모'라는 말이 붙습니다.

같은 질문에도 챗봇이 매번 다르게 답하는 이유는 무엇인가요?

다음 단어를 고를 때 확률이 낮은 단어도 무작위로 섞어 선택하기 때문입니다. 그래서 모델 자체는 결정론적이어도 출력은 매번 달라집니다.

트랜스포머가 기존 모델과 다른 점은 무엇인가요?

2017년 이전에는 대부분 단어를 하나씩 처리했지만, 구글이 제안한 트랜스포머는 모든 단어를 한꺼번에 병렬로 처리합니다.

사전 훈련만으로 좋은 AI 비서가 되나요?

아닙니다. 다음 단어 예측은 좋은 비서가 되는 것과 거리가 있어, 인간 피드백 기반 강화학습(RLHF)으로 추가로 다듬습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗