AI VIDEO BRIEFING

LLM 바닥부터 만들기 #1 사전학습 — 토큰화·데이터로더·트랜스포머 정리

대형 언어 모델을 직접 만들어 보는 과정을 사전학습 중심으로 정리합니다. 학습 데이터 준비, 토큰화, 다음 단어 예측, 마스크 셀프 어텐션, 훈련과 결과 확인까지 핵심 흐름을 짚습니다.

출처: 홍정모2025년 2월 22일AI 보조 요약

LLM을 바닥부터 만들어 보기 — 사전학습(프리트레이닝) 과정 따라가기 영상 대표 이미지

핵심 메시지

LLM을 바닥부터 만드는 기술은 더 이상 특별하지 않으며, 강의·교재가 늘면서 보편적인 기술로 자리 잡아 가고 있다.
LLM은 보통 사전학습(일반 언어 능력) → 파인튜닝(특정 업무) 단계로 만들며, 여기서는 사전학습 과정을 직접 따라간다.
사전학습의 핵심은 텍스트의 앞부분을 입력으로 주고 '바로 다음 단어'를 맞히도록 훈련하는 것이다(입력과 정답이 한 칸 밀린 형태).
트랜스포머의 마스크 셀프 어텐션은 미래 단어를 가려서, 모델이 정답을 미리 보지 않고 다음 단어를 추측하도록 만든다.

쉽게 이해하기

발표자는 지난 라이브 코딩에 이어 대형 언어 모델을 처음부터 만들어 보는 과정을 주피터 노트북으로 정리해 보여 준다. 딥시크 등장과 무료로 공개되는 모델들을 언급하며, LLM 기술의 유행이 오래갈 것으로 보고 기본 원리를 깊이 이해해 두는 것이 좋은 선택이라고 말한다.

전체 흐름을 먼저 요약한다. LLM은 한 번에 만능 모델을 만드는 것이 아니라, 먼저 사전학습으로 '하던 말을 이어서 하도록' 일반 언어 능력을 가르치고, 이후 파인튜닝으로 질문-답변 같은 특정 업무를 가르친다. 사전학습 데이터는 인터넷 자료로 비교적 쉽게 구하지만, 특정 업무용 데이터셋은 만들기가 까다롭다고 설명한다.

실습은 일반적인 머신러닝과 같은 순서를 따른다. 먼저 학습 데이터를 준비하는데, 캐글에서 정리된 해리포터 책 텍스트를 받아 줄바꿈과 공백을 정규식으로 정리(클린)한다. 다음으로 문자열을 숫자로 바꾸는 토큰화를 거치는데, tiktoken의 GPT-2 토크나이저를 쓰면 영어는 단어 단위로 깔끔하게 잘린다.

데이터로더는 책 전체를 토큰으로 바꾼 뒤, 입력(input)과 정답(target)을 한 칸씩 밀린 쌍으로 만든다. 예를 들어 'Harry'를 넣으면 'Potter'를, 'Harry Potter'를 넣으면 'was'를 예측하도록 훈련한다. 이렇게 앞부분을 보고 다음 토큰을 맞히게 하는 것이 사전학습의 요령임을 코드로 보여 준다.

모델은 교재의 GPT 구조를 거의 그대로 쓴다. 임베딩, 트랜스포머 블록(멀티헤드 어텐션·피드포워드·레이어 정규화)으로 구성되며, 피드포워드는 리니어-GELU-리니어의 비선형 구조다. 핵심은 마스크 셀프 어텐션으로, 다음에 올 단어를 가려(마스킹) 모델이 정답을 미리 보지 못하게 한다.

훈련은 GPU가 있으면 빠르고, 없으면 데이터양과 에폭(전체 데이터 1회 학습)을 줄여 CPU로도 가능하다. 발표자는 해리포터 한 권을 100에폭 돌리는 데 약 두 시간이 걸렸지만 10~20에폭만 해도 작동을 확인하기 충분하다고 말한다. 마지막으로 'Dobby is' 다음 단어를 예측시켜 로짓과 어휘 확률을 확인하며 결과를 살핀다.

주요 인사이트

입력과 정답이 '딱 한 칸 밀린' 형태라는 점이 사전학습의 본질을 단적으로 보여 준다. 앞 토큰들을 보고 바로 다음 토큰을 맞히는 것이 곧 다음 단어 예측 학습이다.
토큰은 글자 단위가 아니라 보통 단어 단위로 만든다. 영어 사전에 없는 'Dobby'는 'D'와 'obby' 두 토큰으로 쪼개지는 등, 토크나이저가 단어를 어떻게 나누는지 직접 디코딩하며 확인할 수 있다.
마스크가 필요한 이유는, 마스킹이 없으면 모델이 문장의 뒷부분까지 보고 답을 미리 알아 버려 '답지 보고 푸는' 셈이 되기 때문이다. 그래서 미래 토큰을 가려 추측하게 만든다.
한국어는 GPT-2 토크나이저로 잘 처리되지 않아, 발표자는 한국어 토큰화에는 LG의 EXAONE 계열 토크나이저가 잘 동작했다고 소개한다.

자주 묻는 질문

LLM은 어떤 단계로 만드나요?

보통 먼저 사전학습으로 일반적인 언어 능력(다음 단어 이어 말하기)을 가르치고, 이후 파인튜닝으로 질문-답변 같은 특정 업무를 가르칩니다. 영상은 이 중 사전학습 과정을 직접 따라갑니다.

사전학습에서 입력과 정답은 어떻게 구성하나요?

같은 텍스트에서 정답(target)을 입력(input)보다 한 칸 뒤로 민 쌍으로 만듭니다. 그래서 앞부분 토큰들을 넣으면 바로 다음 토큰을 맞히도록 훈련됩니다.

마스크 셀프 어텐션은 왜 필요한가요?

마스킹이 없으면 모델이 뒤에 올 단어까지 보고 답을 미리 알게 됩니다. 미래 토큰을 가려서, 앞부분만 보고 다음 단어를 추측하도록 만들기 위해 마스크를 사용합니다.

GPU가 없어도 실습할 수 있나요?

네. 데이터양과 에폭 수를 줄이면 CPU로도 가능합니다. 정밀하지는 않아도 몇 시간이면 작동 원리를 확인할 정도로 훈련됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗