AI VIDEO BRIEFING

스탠퍼드 CS336 1강 정리 — 언어 모델을 바닥부터 배우는 이유와 효율성·스케일링

스탠퍼드 CS336 ‘바닥부터 만드는 언어 모델’ 1강 요약. 프롬프트만으로는 닿지 못하는 근본 이해, 효율성이 곧 성능이라는 관점, 그리고 언어 모델의 역사와 에이전트 시대까지의 흐름을 정리한다.

출처: Stanford Online2026년 4월 14일AI 보조 요약

스탠퍼드 CS336 1강: ‘바닥부터 만들며’ 언어 모델을 이해한다는 것 영상 대표 이미지

핵심 메시지

CS336은 ‘바닥부터 만들기’ 철학으로, 모델을 직접 구축하며 작동 원리를 체득하게 한다. 프롬프트만 쓰면 설계 공간이 크게 좁아지기 때문이다.
프런티어 모델은 학습 비용이 수억~수십억 달러에 이르고 구축 방법도 공개되지 않아, 강의에서는 작은 모델을 만들되 ‘규모에 따라 달라지는 것’을 함께 가르친다.
강의가 다루는 지식은 메커니즘·사고방식·직관 세 가지인데, 메커니즘과 사고방식은 큰 규모로도 전이되지만 직관은 규모를 넘어 전이되지 않을 수 있다.
‘쓰라린 교훈’의 올바른 해석은 ‘규모만 중요하다’가 아니라 ‘규모에 맞게 확장되는 알고리즘이 중요하다’이며, 정확도는 효율성과 자원의 곱으로 볼 수 있다.
언어 모델은 n-그램에서 신경망·트랜스포머로, 그리고 미세조정 → 프롬프트 → 대화 → 에이전트의 시대로 진화했지만 GPU·경사하강·트랜스포머라는 기본기는 크게 변하지 않았다.

쉽게 이해하기

스탠퍼드 CS336 ‘바닥부터 만드는 언어 모델’은 세 번째로 열리는 강의로, 퍼시 량 등 교수진과 조교들이 진행한다. 핵심 철학은 ‘from scratch’, 즉 모든 것을 바닥부터 쌓아 올리며 작동 원리를 진짜로 이해하는 것이다. 분량상 정말 모든 것을 만들 수는 없어, 지난 2년간 ‘직접 만들 가치가 가장 큰 부분’을 골라내는 레시피를 다듬어 왔다. 올해는 전문가 혼합(MoE)과, 에이전트 유행에 맞춘 긴 문맥(long context)에 시간을 더 쓴다.

강의를 만든 이유는 연구자들이 기반 기술과 멀어지고 있기 때문이다. 10년 전엔 연구자가 직접 모델을 구현·훈련했고, 8년 전엔 BERT 같은 사전학습 모델을 받아 미세조정했으며, 오늘날엔 프롬프트만으로도 많은 일을 할 수 있다. 프롬프트가 나쁜 건 아니지만 추상화는 ‘새는’ 법이라, 원하는 일이 안 될 때 손쓸 방법이 없어진다. 근본 연구를 하려면 전체 스택을 파헤쳐야 하고, 그 이해는 ‘직접 만들어 봄’으로써 얻는다는 것이 강의의 전제다.

문제는 언어 모델의 산업화다. 프런티어 모델은 매우 비싸서 3년 전 GPT-4가 약 1억 달러, 지금은 10억 달러 수준(추정)으로 추산되고, GPU 규모도 막대하며, 구축 방법은 공개되지 않는다(GPT-4 논문은 경쟁과 안전을 이유로 공개를 거부했다). 그래서 강의에선 작은 모델을 만들지만, 이것이 프런티어 모델을 대표하지 못할 수 있음을 강조한다. 예컨대 MLP 층이 차지하는 연산 비중은 소규모에서 약 44%지만 1,750억 파라미터 규모에선 80%로 바뀌고, 능력의 ‘창발(emergence)’은 임계 규모에 도달해야 비로소 나타난다.

강사는 지식을 세 가지로 나눈다. 트랜스포머가 무엇이고 모델 병렬화가 어떻게 작동하는지 같은 ‘메커니즘’, 하드웨어를 최대한 짜내고 스케일링을 진지하게 다루는 ‘사고방식’, 어떤 데이터·모델링 결정이 좋은 성능을 내는지에 대한 ‘직관’이다. 메커니즘과 사고방식은 큰 규모로도 전이되지만, 직관은 규모를 넘어 전이되지 않을 수 있다. 일부 설계 결정은 그저 실험에서 나오는데, 노엄 셰이저의 SwiGLU 논문은 결론에서 그 성공을 ‘신의 자비 덕분’이라고 익살스럽게 적기도 했다.

이른바 ‘쓰라린 교훈(bitter lesson)’도 바로잡는다. 흔한 오해는 ‘규모만 중요하고 알고리즘은 무의미하다’지만, 올바른 해석은 ‘규모에 맞게 확장되는 알고리즘이 중요하다’이다. 정확도는 대략 효율성(출력/입력)과 자원의 곱으로 볼 수 있어, 규모가 커질수록 5%의 효율 개선도 수억 달러를 좌우할 만큼 중요해진다. OpenAI의 2020년 연구는 2012~2019년 이미지넷에서 알고리즘 효율이 44배 좋아졌음을 보였고, 하드웨어 향상과 곱해질 때 큰 도약이 일어난다. 끝으로 언어 모델의 역사는 섀넌의 영어 엔트로피 측정과 n-그램에서 시작해 LSTM·벤지오의 신경망 언어 모델·시퀀스투시퀀스·어텐션·트랜스포머로 이어지고, ELMo·BERT를 거쳐 OpenAI가 스케일링 법칙을 받아들여 GPT-3의 창발적 인컨텍스트 학습을 끌어냈으며, 메타 Llama·미스트랄·딥시크·Qwen 등 오픈 생태계가 비공개 모델에 근접해 왔다. 모델의 의미도 미세조정 → 프롬프트 → 대화(ChatGPT) → 에이전트로 바뀌었지만, GPU·경사하강·트랜스포머라는 기본기는 크게 변하지 않았다.

주요 인사이트

프롬프트만으로는 ‘추상화가 새는’ 순간 손쓸 수 없으므로, 근본 연구에는 전체 스택을 직접 만들어 본 이해가 필요하다.
작은 규모 실험의 결론은 큰 규모로 그대로 전이되지 않을 수 있다(MLP 연산 비중 44%→80%, 능력의 창발 등).
메커니즘·사고방식은 규모를 넘어 전이되지만, ‘무엇이 통하는가’에 대한 직관은 대규모에서 직접 실험해야 얻을 수 있다.
‘쓰라린 교훈’의 핵심은 규모 자체가 아니라 ‘규모에 맞게 확장되는 알고리즘’이며, 효율성은 대규모일수록 비용을 좌우한다.
에이전트 시대로 요구는 커졌지만 GPU·경사하강·트랜스포머라는 기본기는 유지되어, 긴 문맥에서의 추론 효율이 더 중요해졌다.

자주 묻는 질문

왜 프롬프트만 쓰지 않고 ‘바닥부터’ 만들며 배우나?

프롬프트는 유용하지만 추상화가 ‘새는’ 탓에 원하는 일이 안 될 때 손쓸 방법이 없고, 설계 공간을 크게 좁힌다. 근본 연구를 하려면 전체 스택을 이해해야 하며, 그 이해는 직접 만들어 보며 얻는다는 것이 CS336의 철학이다.

작은 모델을 만드는데 왜 프런티어 모델을 대표하지 못하나?

규모에 따라 중요한 것이 달라지기 때문이다. 예컨대 MLP 층의 연산 비중은 소규모에서 약 44%지만 1,750억 파라미터 규모에선 80%가 되고, 능력의 창발은 임계 규모에 도달해야 나타난다. 그래서 작은 규모의 결론이 큰 규모로 그대로 이어지지 않을 수 있다.

‘쓰라린 교훈’은 무엇을 뜻하나?

흔한 오해와 달리 ‘규모만 중요하다’가 아니라 ‘규모에 맞게 확장되는 알고리즘이 중요하다’는 뜻이다. 정확도는 효율성과 자원의 곱으로 볼 수 있어, 규모가 커질수록 작은 효율 개선도 큰 비용 차이를 만든다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗