AI VIDEO BRIEFING

LLM 밑바닥부터 구현하기 — 라쉬카의 12단계 학습법과 2026년 AI 흐름 총정리

세바스찬 라쉬카가 파이토치로 LLM 구조를 직접 구현하며 배운 점을 정리한다. 젬마3 사례로 본 12단계 디버깅법, KV 캐시 절감 흐름, 에이전트 시대의 학습 로드맵까지 한국 독자 눈높이로 짚는다.

출처: Sebastian Raschka2026년 5월 12일AI 보조 요약

“코드는 거짓말하지 않는다”: LLM을 밑바닥부터 구현하며 배운 것들 영상 대표 이미지

핵심 메시지

‘파이썬으로 LLM을 돌린다’는 말은 사실상 내부에서 C++·CUDA를 호출하는 파이토치를 쓴다는 뜻이다.
논문이 점점 간략해진 지금, 공개된 가중치의 실제 코드를 읽고 기준 구현과 맞춰 보는 것이 구조를 이해하는 가장 확실한 방법이다.
라쉬카는 새 모델이 나오면 뉴스→기술보고서→설정 파일→코드→계층별 대조라는 12단계로 직접 재구현하며 익힌다.
젬마의 RMSNorm은 가중치에 1을 더해 0 중심으로 학습하도록 살짝 다르게 설계돼 학습 안정성을 높였는데, 이런 미묘한 차이는 코드를 봐야 드러난다.
올해 AI의 큰 흐름은 추론 모델을 ‘에이전트 하니스’ 안에서 돌려 도구와 문맥을 붙여 쓰는 것이며, 학습은 밑바닥 구현 후 검증된 라이브러리로 넘어가길 권한다.

쉽게 이해하기

세바스찬 라쉬카는 ‘파이썬으로 LLM 다루기’ 강연에서 먼저 용어를 정리한다. 우리가 파이썬으로 모델을 돌린다고 할 때 실제로는 파이토치를 거치며, 그 아래에서는 CPU의 C++, 엔비디아 GPU의 CUDA, AMD의 ROCm, 애플의 메탈이 동작한다. 즉 파이토치는 파이썬과 빠른 저수준 구현을 잇는 접착제에 가깝다.

생태계도 짚는다. 학습은 파이토치·잭스로, 공유는 깃허브 같은 허깅페이스 모델 허브로, 서버 추론은 vLLM·SGLang으로, 노트북 같은 작은 기기에서는 llama.cpp·올라마·MLX로 굴린다. 대부분의 흐름이 파이썬에서 시작해 모델 허브를 거친다.

그가 가장 공들여 전한 부분은 ‘코드를 직접 구현하며 배우는 법’이다. 요즘 공개 모델 보고서는 벤치마크 위주로 짧아졌지만, 가중치가 공개되면 코드를 읽어 내부 동작을 볼 수 있다. ‘작동하는 코드는 거짓말하지 않는다’는 것이 그의 원칙으로, 기준 구현과 같은 결과가 나오면 옳다고 확신할 수 있다.

젬마3 2.7억 모델을 예로, 그는 12단계 과정을 보여 준다. 뉴스로 출시를 알고, 기술 보고서를 읽고, 모델 허브의 설정 파일을 본 뒤 예전 그림과 코드를 갱신한다. 처음 돌렸을 때 엉뚱한 토큰이 나오자, 임베딩부터 계층별로 허깅페이스 기준 구현과 출력을 대조해 첫 정규화 계층에서 어긋남을 찾았다. 원인은 젬마의 RMSNorm이 가중치에 1을 더하는 0 중심 설계였고, 이를 고치니 정상 동작했다.

끝으로 흐름과 조언을 정리한다. 최근 구조 변화는 대부분 KV 캐시를 줄이려는 시도(GQA·MLA·슬라이딩 윈도우·희소 어텐션, 어텐션을 맘바로 대체, KV 캐시를 양자화한 터보퀀트 등)다. 모델은 챗봇→추론 모델→에이전트 하니스로 진화했고, 학습자는 먼저 밑바닥부터 구현해 직관을 쌓은 뒤 트랜스포머스·토치타이탄·TRL 같은 검증된 라이브러리로 넘어가라고 권한다.

주요 인사이트

추상화된 그림이나 요약 대신 실제 코드를 계층별로 대조하면, 보고서에는 없는 설계 의도까지 직접 확인할 수 있다.
젬마 RMSNorm의 ‘1+가중치’처럼, 0 중심 파라미터가 학습을 더 안정시킨다는 통념이 실제 구조 선택에 반영돼 있다.
작은 모델(예: 젬마3 2.7억)은 거의 모든 컴퓨터에서 돌아가 디버깅과 학습용 실험에 이상적이다.
에이전트 하니스는 모델 자체를 바꾸기보다, 저장소 문맥·도구 접근·프롬프트 캐시 같은 ‘배관’을 붙여 같은 모델에서 더 많은 성능을 끌어낸다.
밑바닥 구현은 효율적 실행이 목적이 아니라 학습이 목적이며, 자동화하면 이해까지 함께 자동화돼 사라진다는 점이 핵심이다.

자주 묻는 질문

‘파이썬으로 LLM을 돌린다’는 것은 정확히 무슨 뜻인가요?

순수 파이썬이 아니라 대개 파이토치를 통해 돌린다는 뜻입니다. 파이토치는 CPU에서는 C++, 엔비디아 GPU에서는 CUDA, AMD에서는 ROCm, 애플 실리콘에서는 메탈을 호출해 실제 연산을 빠르게 수행합니다.

기준 구현과 계층별로 대조하는 방법이 왜 유용한가요?

직접 구현한 모델이 이상한 출력을 낼 때, 임베딩부터 한 계층씩 허깅페이스 같은 기준 구현의 출력과 비교하면 어디서 값이 어긋나는지 정확히 짚어낼 수 있기 때문입니다. 라쉬카는 이렇게 젬마의 RMSNorm 차이를 찾아냈습니다.

LLM을 배우려면 어디서 시작하라고 권하나요?

먼저 기존 구현을 바탕으로 새 구조로 조금씩 바꿔 가며 밑바닥부터 직접 구현해 직관을 쌓고, 실제 프로젝트에서는 트랜스포머스·토치타이탄·TRL처럼 최적화가 잘 된 검증된 라이브러리로 넘어가라고 권합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗