AI VIDEO BRIEFING
LLM이란 무엇인가 — 다음 단어 예측과 트랜스포머·어텐션 핵심 정리
챗봇이 답하는 원리는 의외로 단순합니다. 거대 언어 모델이 다음 단어를 어떻게 예측하고, 파라미터·사전학습·트랜스포머·어텐션이 어떤 역할을 하는지 쉽게 풀어 설명합니다.

핵심 메시지
쉽게 이해하기
영상은 절반이 찢어져 사람의 질문만 남은 영화 대본에 비유해 LLM을 설명한다. 어떤 문장이든 넣으면 다음에 올 단어를 그럴듯하게 예측해 주는 기계가 있다면, 예측한 단어를 다시 붙여 넣기를 반복해 대본을 완성할 수 있다. 챗봇과의 대화도 정확히 이런 방식으로 한 단어씩 이어 붙여 만들어진다.
엄밀히 말해 모델은 단 하나의 단어를 확정하는 것이 아니라 다음에 올 수 있는 모든 단어에 대한 확률을 구한다. 가장 높은 확률만 고르는 대신 가끔 낮은 확률의 단어도 무작위로 택하면 더 자연스럽고 사람다운 답변이 된다. 모델 자체는 결정론적이지만 이 무작위성 때문에 같은 입력에도 답이 매번 달라진다.
이런 모델은 인터넷에서 모은 방대한 텍스트로 학습된다. 영상은 GPT-3가 학습한 텍스트를 사람이 하루도 쉬지 않고 읽으면 2,600년 이상 걸린다고 비유한다. 학습이란 처음엔 무작위였던 수많은 다이얼, 즉 파라미터(가중치) 값을 역전파(백프로파게이션) 알고리즘으로 조금씩 조정해 예측을 정답에 가깝게 만드는 과정이다.
다음 단어 예측을 잘하도록 만드는 것(사전학습·프리트레이닝)과 좋은 AI 어시스턴트를 만드는 것은 다르다. 그래서 사전학습된 모델을 사람이 더 나은 응답을 골라주는 강화학습(RLHF)으로 추가 훈련해 사용자가 선호하는 방향으로 답하도록 조정한다.
2017년 이전에는 대부분의 모델이 단어를 하나씩 순차 처리했지만, 구글의 트랜스포머는 문장 전체를 병렬로 처리한다. 단어는 의미와 맥락을 담은 숫자 벡터로 바뀌고, 어텐션 연산이 벡터들끼리 정보를 주고받게 해 맥락에 따라 의미를 조정한다. 어텐션과 피드포워드를 여러 층 반복하며 문맥을 압축한 뒤 마지막에 다음 단어의 확률을 예측한다.
주요 인사이트
- '눈'이라는 단어는 주변에 '내린다'가 있으면 하늘에서 내리는 눈을, '보는 눈이 많다'에서는 사람의 눈을 의미한다. 어텐션은 이렇게 주변 맥락으로 같은 단어의 의미 벡터를 다르게 만든다.
- 1초에 10억 번 연산하는 기계로도 모델 하나를 사전학습시키는 데 1억 년이 걸린다는 비유는, 실제 학습에 왜 GPU의 병렬 처리가 필수인지 보여 준다.
- 모델 구조는 사람이 설계하지만 실제 출력은 훈련으로 조정된 수십억 개 파라미터가 결정하기 때문에, 왜 특정 단어를 예측했는지 설명하기는 매우 어렵다.
자주 묻는 질문
거대 언어 모델은 한 번에 정답 단어 하나를 정하나요?
아니요. 다음에 올 수 있는 모든 단어에 대한 확률을 구하고, 그중에서 단어를 고릅니다. 가끔 확률이 낮은 단어도 무작위로 선택해 더 자연스러운 답을 만듭니다.
왜 같은 질문에 매번 다른 답이 나오나요?
모델 자체는 결과가 정해진 결정론적 함수지만, 확률이 조금 낮은 단어도 가끔 무작위로 선택하도록 만들기 때문에 같은 입력이라도 답이 달라질 수 있습니다.
트랜스포머가 이전 모델과 다른 점은 무엇인가요?
2017년 이전 모델들은 단어를 하나씩 순차적으로 처리했지만, 트랜스포머는 문장 전체를 한꺼번에 병렬로 처리하고 어텐션으로 단어들이 서로 맥락 정보를 주고받게 합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗