AI VIDEO BRIEFING
스탠퍼드 CS229로 배우는 LLM 구축: 데이터·스케일링·정렬 핵심 정리
스탠퍼드 CS229 강의로 보는 대규모 언어모델 구축의 전 과정. 사전학습과 토큰화, 평가와 스케일링 법칙, 학습 비용, 그리고 SFT·RLHF·DPO 정렬까지 핵심을 정리했다.

핵심 메시지
쉽게 이해하기
이 강의는 LLM 학습을 떠받치는 다섯 축, 즉 아키텍처, 학습 손실·알고리즘, 데이터, 평가, 시스템을 소개한다. 트랜스포머 아키텍처는 이미 자료가 많아 생략하고, 발표자는 학계가 아키텍처·손실에 집중하는 것과 달리 실무에서 진짜 성능을 좌우하는 것은 데이터·평가·시스템이라고 거듭 강조한다.
사전학습은 고전적 언어모델링이다. 언어모델은 토큰 시퀀스에 대한 확률분포로, 자기회귀 방식은 확률의 연쇄법칙에 따라 다음 토큰을 예측한다. 학습은 교차 엔트로피 손실을 줄이는 것이며 이는 텍스트 우도를 최대화하는 것과 같다. 이때 토큰화가 중요하다. 단어 단위는 오타·띄어쓰기 없는 언어에 약하고 문자 단위는 시퀀스가 너무 길어지므로, BPE처럼 빈번한 쌍을 병합하는 방식을 쓴다. 숫자나 코드 토큰화 문제 때문에 토크나이저를 아예 없애려는 논의도 소개된다.
평가는 perplexity(검증 손실을 지수화한 값으로, 모델이 다음 단어를 두고 '망설이는' 토큰 수에 해당)로 시작한다. 다만 perplexity는 토크나이저에 의존해 모델 간 비교가 어렵기 때문에, 학계는 MMLU·HELM처럼 객관식 우도를 비교하는 벤치마크를 모아 쓴다. 평가의 함정으로는 같은 모델도 평가 방식에 따라 점수가 크게 달라지는 불일치(예: Llama 65B가 벤치마크에 따라 63.7 vs 48.8)와, 테스트셋이 학습에 섞이는 오염(train-test contamination)이 지적된다.
데이터와 스케일링은 강의의 핵심이다. 'clean internet'이라는 말의 실체는 Common Crawl의 약 2,500억 페이지(약 1PB)에서 HTML 텍스트를 추출하고, 유해 콘텐츠·개인정보를 거르고, 중복을 제거하며, 휴리스틱·모델 기반 필터(위키피디아 참조 링크로 고품질 분류기 학습)를 거치고, 도메인별 가중치를 조정한 뒤, 학습 막바지에 위키피디아 같은 고품질 데이터로 마무리하는 과정이다. 최신 모델은 약 15조 토큰으로 학습한다. 스케일링 법칙은 과적합 없이 로그 스케일에서 선형으로 성능을 예측하게 해주며, 작은 모델들로 스케일링 레시피를 맞춘 뒤 큰 모델을 학습하는 새 파이프라인을 가능케 한다. Chinchilla는 파라미터당 20토큰, 추론 비용까지 고려하면 약 150토큰을 제시했고, 발표자는 '결국 연산을 잘 활용하는 시스템과 데이터가 중요하다'는 비터 레슨(R. Sutton)을 인용한다.
비용 추정도 인상적이다. Llama 3 405B는 약 3.8e25 FLOPs(특별 규제 기준 1e26 바로 아래)로, 16,000장의 H100을 약 70일(약 2,600만 GPU시간) 돌렸고, 렌트·인건비를 합쳐 약 7,500만 달러, 탄소는 약 4,000톤으로 추산된다. 후속학습은 SFT로 시작한다. 사람이 작성한 원하는 답으로 미세조정하는 단계인데, LIMA 연구처럼 데이터가 적어도 충분하며, 모델이 모르는 사실을 정답으로 가르치면 환각이 생길 수 있다는 점이 흥미롭다. 이어 RLHF는 보상모델(Bradley-Terry)과 PPO로 사람 선호를 최대화하며, ChatGPT가 쓴 3단계(SFT→보상모델→PPO)가 GPT3와의 큰 차이를 만들었다. 최근에는 강화학습 없이 선호 데이터를 직접 최적화하는 DPO가 PPO와 비슷한 성능을 더 단순하게 낸다. 사람 라벨링은 자기 일치율이 약 66%에 그칠 만큼 어렵고 길이 같은 표면적 특징에 편향되기 쉬워, LLM으로 선호 라벨을 대체하면 약 50배 저렴하면서도 사람보다 일관성이 높아 표준이 되어가고 있다.
주요 인사이트
- 학계는 아키텍처에 집중하지만, 실제 성능을 좌우하는 것은 데이터·평가·시스템이라는 점이 반복 강조된다.
- 스케일링 법칙은 작은 모델 실험으로 큰 모델의 성능을 예측해 학습 자원 배분을 최적화할 수 있게 해준다.
- 환각은 잘못된 데이터 때문만이 아니라, 모델이 모르는 사실을 사람이 정답으로 가르치는 SFT 과정에서도 생길 수 있다.
- DPO는 보상모델과 강화학습 없이 선호 데이터를 직접 최적화해 PPO와 비슷한 성능을 더 단순하게 달성한다.
- 사람의 선호 라벨링은 자기 일치율이 약 66%에 그칠 만큼 어렵고 표면적 특징에 편향되기 쉬워, LLM 기반 라벨링이 표준이 되어가고 있다.
자주 묻는 질문
LLM 학습에서 가장 중요한 요소는 무엇인가?
아키텍처, 학습 손실·알고리즘, 데이터, 평가, 시스템 다섯 가지이며, 강의는 실무에서 데이터·평가·시스템이 더 결정적이라고 강조한다.
사전학습과 후속학습(post-training)은 어떻게 다른가?
사전학습은 인터넷 텍스트로 다음 토큰을 예측하도록 학습하는 단계이고, 후속학습은 그 모델을 지시를 따르는 AI 어시스턴트로 정렬하는 단계다.
Chinchilla가 제시한 최적 데이터-파라미터 비율은?
파라미터 하나당 약 20개의 토큰이며, 추론 비용까지 고려하면 약 150토큰 대 1 파라미터가 실전에서 선호된다.
DPO가 PPO보다 단순한 이유는?
보상모델 학습과 강화학습 없이, 사람이 선호한 답의 확률은 높이고 선호하지 않은 답의 확률은 낮추는 최대우도 방식으로 학습하기 때문이다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗