AI VIDEO BRIEFING

LLM은 어떻게 만들어지나: 데이터·토큰화·학습·평가까지 5단계로 정리

GPT·Gemini·Claude 같은 대규모 언어모델을 만드는 5단계를 정리한다. 데이터 큐레이션과 토큰화부터 트랜스포머 아키텍처, 대규모 학습, 그리고 평가까지 핵심 과정과 비용·기술을 쉽게 설명한다.

출처: codebasics2025년 11월 12일AI 보조 요약

대규모 언어모델(LLM)은 어떻게 만들어지나: 다섯 단계로 보는 LLM 구축 영상 대표 이미지

핵심 메시지

LLM 구축은 데이터 큐레이션, 토큰화, 모델 아키텍처 설계, 대규모 학습, 평가의 다섯 단계로 이뤄진다.
첫 단계인 데이터 큐레이션이 가장 중요하며, '쓰레기를 넣으면 쓰레기가 나온다'는 원칙에 따라 중복 제거·필터링·개인정보 제거가 필수다.
신경망 스케일링 법칙에 따라 데이터·연산·파라미터가 커질수록 손실이 줄고 성능이 좋아진다(GPT4 학습 컴퓨트 비용만 1억 달러 이상).
트랜스포머의 핵심은 어텐션 메커니즘이며, 효율을 위해 flash·sparse attention, 전문가 혼합(MoE), 새로운 활성화 함수·옵티마이저가 도입된다.
학습은 사전학습→중간학습→지도 미세조정(SFT)→선호 미세조정(RLHF·검증 가능한 보상 RL)으로 세분되고, 마지막 평가는 의미 유사도와 벤치마크로 확률적 출력을 검증한다.

쉽게 이해하기

영상은 GPT·Gemini·Claude 같은 모델이 이끈 AI 혁명의 이면, 즉 LLM을 만드는 다섯 단계를 정리한다. 규모를 가늠하자면 OpenAI는 GPT4 학습에 컴퓨트 비용만 1억 달러 이상을, 구글은 Gemini Ultra에 1억 9,100만 달러를 썼다고 소개한다.

첫 단계는 데이터 큐레이션이다. 인터넷·책·GitHub 코드·위키피디아를 스크래핑해 방대한 데이터를 모은다. 스케일링 법칙상 데이터·연산·파라미터가 커질수록 손실이 줄어 성능이 좋아진다(GPT5는 70조 토큰 규모). 다만 수집만으로는 부족하다. HTML 태그 제거 같은 정제, 그리고 중복 제거가 핵심인데 정확한 중복은 SHA1·MD5 해시로, 근사 중복은 MinHash·SimHash·LSH로, 의미상 중복과 동일 로직의 코드까지 걸러낸다. 여기에 개인정보 비식별화가 더해진다. 미세조정용 고품질 질문·답변은 사람 주석으로 만들어지며, Scale(메타가 인수) 같은 회사가 이런 데이터를 제공한다.

둘째는 토큰화다. 컴퓨터는 텍스트가 아니라 숫자만 이해하므로, 문장을 토큰으로 나누고 토큰 ID를 부여한 뒤 각 토큰의 임베딩을 만든다. GPT는 바이트 페어 인코딩(BPE)을 쓰며, 일부 최신 설계는 토큰 분할을 생략하고 UTF8 바이트 단위로 동작하기도 한다.

셋째와 넷째는 모델 아키텍처와 대규모 학습이다. 트랜스포머가 LLM의 근간이고 그 심장은 어텐션 메커니즘으로, 같은 단어 'bank'의 의미를 문맥에 따라 다르게 잡아낸다. 효율을 위해 flash·sparse attention, 위치 임베딩 RoPE, 전문가 혼합(MoE, DeepSeek이 활용), GLU·SwiGLU 활성화 함수, Muon 같은 옵티마이저가 등장했다. GPT4는 약 1조 7,600억 개의 파라미터를 가지며, 이를 학습하려면 수천 개의 GPU를 갖춘 데이터센터가 필요하다. 영상은 OpenAI·SoftBank·Oracle의 스타게이트 프로젝트(텍사스 대형 데이터센터)와 Nvidia GPU 수요, 모든 트랜지스터를 활용하기 위한 CUDA·C++ 엔지니어 채용을 언급한다.

학습은 다시 사전학습(Gmail 자동완성처럼 다음 토큰 예측), 중간학습(추론·기억력 강화), 지도 미세조정(SFT, 질문·답변 쌍으로 ChatGPT처럼 만드는 '면접 준비' 단계), 선호 미세조정(RLHF, DPO), 그리고 검증 가능한 보상 기반 RL(코드 테스트 통과 시 보상)로 나뉜다. 마지막 다섯째 단계는 평가다. 출력이 확률적이라 정확한 단어 일치 대신 코사인 유사도로 의미를 비교하고, 안전성 응답을 점검하며, BLEU 점수·LLM-as-judge·SWE-bench·MMLU·AIME 같은 벤치마크로 모델을 검증한다.

주요 인사이트

데이터 품질이 모델 성능을 좌우하며, 수집보다 정제·중복 제거·주석 작업이 더 큰 노력과 비용을 요구한다.
최근 아키텍처 변화(flash attention, MoE, 새 옵티마이저)는 대부분 정확도 자체보다 '효율과 속도'를 노린 것이다.
사전학습은 다음 토큰 예측에 불과하며, 챗봇다운 행동은 SFT와 선호 미세조정 같은 후속 단계에서 만들어진다.
RLHF의 한계(사람 판단의 편향과 확장성 문제)를 보완하기 위해 자동으로 명확하게 계산되는 '검증 가능한 보상' 기반 RL이 등장했다.
출력이 확률적이라 전통적 정확 일치 대신 의미 유사도와 LLM-as-judge 같은 평가 방식이 필요하다.

자주 묻는 질문

LLM을 만드는 다섯 단계는 무엇인가?

①데이터 큐레이션 ②토큰화 ③모델 아키텍처 설계 ④대규모 학습 ⑤평가의 다섯 단계다.

사전학습과 지도 미세조정(SFT)은 어떻게 다른가?

사전학습은 다음 토큰을 예측하도록 학습하는 단계이고, SFT는 질문·답변 쌍으로 모델이 지시를 따르고 답하도록 ChatGPT처럼 만드는 단계다.

데이터 중복은 어떻게 제거하나?

정확한 중복은 SHA1·MD5 해시로, 근사 중복은 MinHash·SimHash·LSH로, 의미상 중복과 동일 로직의 코드까지 함께 제거한다.

검증 가능한 보상(RLVR)이 RLHF와 다른 점은?

사람 피드백 대신 테스트 통과 여부처럼 자동으로 명확히 계산되는 보상을 사용해 사람 판단의 편향·확장성·검증 문제를 보완한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗