AI VIDEO BRIEFING
대규모 언어 모델(LLM) 원리: 다음 단어 예측·인과적 어텐션·디코딩·BPE 토큰화
MIT 강의로 보는 LLM의 작동 원리. 다음 단어 예측 학습, 미래를 못 보게 막는 인과적 어텐션, 그리디·탑K·탑P·온도 같은 디코딩 전략, 그리고 바이트 페어 인코딩(BPE) 토큰화를 차근차근 설명한다.

핵심 메시지
쉽게 이해하기
이 강의는 앞서 다룬 BERT의 마스킹(문장 중간 단어를 가리고 복원)에서 출발해, 더 강력한 자기지도 학습인 '다음 단어 예측'으로 넘어간다. 문장의 마지막 단어를 가리고 맞히게 하는 이 방식은, 한 문장에서 여러 입력-출력 쌍을 만들어 한 번에 학습할 수 있도록 입력을 한 칸씩 밀어 쌓는 방식으로 효율적으로 구성된다.
여기서 핵심 문제가 드러난다. 트랜스포머의 자기 어텐션은 모든 단어가 서로를 볼 수 있어, 다음 단어를 예측할 때 정답인 미래 단어를 그대로 베껴버린다. 해결책은 인과적 어텐션이다. 문맥 임베딩을 계산할 때 미래 단어의 가중치를 0으로 두고 나머지를 다시 정규화하면, 각 위치는 과거 단어만 보고 다음을 예측하게 된다. 이렇게 만든 인과적 인코더가 곧 트랜스포머 디코더이며, GPT가 바로 이 자기회귀 언어 모델이다. 추론 시에는 마지막 소프트맥스만 보고 단어를 뽑아 입력에 이어 붙이는 과정을 반복해 문장을 생성한다.
강의는 GPT-3가 96개의 트랜스포머 블록과 블록당 96개의 인과적 어텐션 헤드로 이뤄졌고, 웹·위키피디아·책에서 모은 약 300억 문장으로 단순히 다음 단어 예측만으로 학습되었다고 설명한다. 텍스트 입력-출력이라는 단순한 틀이 코드 생성·문서 요약·질의응답·대화 등 무수한 용도로 확장될 수 있다는 점이 생성형 AI 열풍의 본질이다.
다음으로 디코딩 전략을 다룬다. 가장 확률 높은 단어만 고르는 그리디 디코딩은 결정적이라 사실성·추론 문제에 적합하고, 확률에 비례해 단어를 뽑는 무작위 샘플링은 다양성을 주어 창작에 적합하다. 다만 분포의 긴 꼬리에서 엉뚱한 단어가 한 번 뽑히면 모델이 궤도를 벗어나 회복하지 못하므로, 머리 부분에 집중시키는 장치가 필요하다. 탑K는 상위 K개 단어만, 탑P(뉴클리어스)는 누적 확률이 P에 이를 때까지의 단어만 남겨 정규화한 뒤 샘플링한다. 온도는 소프트맥스의 분모에 들어가는 값으로, 0에 가까우면 가장 큰 단어로 분포가 뾰족해져 그리디가 되고, 키우면 분포가 평평해져 출력이 무작위 잡음이 된다.
마지막 주제는 토큰화다. 전통적인 전처리는 구두점·대소문자를 없애지만 GPT는 이를 그대로 살리고, 심지어 만들어낸 새 단어도 일관되게 사용한다. 비결은 바이트 페어 인코딩(BPE)이다. 모든 글자를 토큰으로 시작해, 가장 자주 인접하는 토큰쌍을 반복해 병합하며 어휘에 추가한다. 그 결과 어휘는 글자, 자주 쓰이는 온전한 단어, 그리고 자주 등장하는 부분 단어(서브워드)로 구성되어, 드문 단어도 조각으로 조합해 표현할 수 있다. GPT-2·3은 약 5만, GPT-4는 약 10만 크기의 어휘를 쓴다.
주요 인사이트
- BERT(양방향, 마스킹 학습)와 GPT(인과적, 다음 단어 예측)는 학습 방식과 어텐션이 다른 별개의 모델이며, 분류·라벨링에는 BERT, 생성에는 GPT 계열이 쓰인다.
- LLM은 정답을 보장하지 않고 '그럴듯한(개연성 있는)' 응답을 내놓을 뿐이다. 강의자가 자신의 가짜 수상 이력을 모델이 그럴듯하게 지어낸 사례가 이를 잘 보여준다.
- 입력이 길고 구체적일수록 다음 단어의 불확실성(불확실성의 원뿔)이 좁아진다. LLM의 생성은 큰 대리석에서 군더더기를 깎아내 형상을 드러내는 '감산적 조각'에 비유된다.
- 온도·탑P 같은 매개변수는 OpenAI 플레이그라운드에서 직접 확률표를 보며 조절할 수 있고, 빙의 '창의적/균형/정밀' 모드도 내부적으로 이 값들을 조정하는 것이다.
- 챗봇이 한 글자씩 타이핑하듯 보이는 것은 토큰을 순차 생성하는 자기회귀 과정의 결과이기도 하지만, 실제로는 더 빠른데도 사람처럼 보이게 일부러 늦추는 UX 연출이 섞여 있다.
자주 묻는 질문
인과적(마스크드) 어텐션은 왜 필요한가요?
일반 자기 어텐션은 모든 단어가 서로를 볼 수 있어, 다음 단어 예측 시 정답인 미래 단어를 그대로 베껴버립니다. 그래서 미래 단어의 어텐션 가중치를 0으로 만들어 각 위치가 과거 단어만 보고 예측하도록 강제하는 것이 인과적 어텐션입니다.
온도(temperature)를 바꾸면 무엇이 달라지나요?
온도를 0에 가깝게 하면 확률 분포가 가장 높은 단어로 뾰족해져 그리디 디코딩처럼 결정적으로 작동하고, 온도를 크게 키우면 분포가 평평해져 거의 모든 단어가 비슷한 확률이 되어 출력이 무작위 잡음이 됩니다.
GPT는 왜 단어 대신 토큰을 쓰나요?
바이트 페어 인코딩(BPE)으로 자주 인접하는 글자쌍을 병합해 글자·온전한 단어·부분 단어가 섞인 어휘를 만듭니다. 덕분에 구두점과 대소문자를 보존하고, 처음 보는 새 단어도 조각으로 조합해 표현할 수 있습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗