AI VIDEO BRIEFING

AI 추론과 토큰의 일생 — 스탠퍼드 CS336 댄 푸 강연 정리

스탠퍼드 CS336 초청 강연에서 댄 푸가 언어모델 추론의 작동 방식, 프리필·디코드와 KV 캐시, 메가 커널과 루프 트랜스포머 PARSE 연구를 설명했다.

출처: Stanford Online2026년 6월 5일AI 보조 요약

토큰 한 개의 일생: 스탠퍼드 강연으로 본 AI 추론의 안쪽 영상 대표 이미지

핵심 메시지

추론은 GPU라는 자원을 지능으로 바꾸는 엔진이며, GPU 커널과 추론 구조를 이해하면 머신러닝 알고리즘 전반의 혁신을 끌어낼 수 있다는 것이 강연의 핵심이다.
요청 하나가 처리되는 과정은 스케줄링, KV 캐시 조회, 프리필과 디코드 실행으로 나뉘며, 프리필은 연산 집약적이고 디코드는 메모리 대역폭에 묶이는 서로 다른 작업이다.
대규모 서빙에서는 작은 확률로만 터지는 버그가 나타나, NaN으로 같은 토큰 반복, 도구 호출 오류로 인한 무한 루프, 오프바이원 오류로 갑자기 중국어를 출력하는 사례가 소개됐다.
여러 연산을 하나의 커널로 합치는 '메가 커널'은 GPU 유휴 시간을 줄여 어텐션에서 30~70% 속도 향상과 H100에서 72%의 대역폭 활용(이론 한계에 근접)을 달성했다.
블록을 반복 사용하는 루프 트랜스포머 'PARSE'는 상태공간모델 이론으로 학습을 안정화했고, 데이터가 늘수록 반복 횟수도 함께 키우는 것이 유리하다는 스케일링 법칙을 보였다.

쉽게 이해하기

스탠퍼드 CS336 강의에 UCSD 연구실과 AI 클라우드 투게더(Together)를 대표해 댄 푸가 초청 강연을 했다. 그는 수업이 주로 모델을 '학습'하는 쪽을 다룬다면, 자신은 학습이 끝난 모델을 실제로 '서빙'하는 반대편을 이야기하겠다고 했다. 추론을 전기를 토큰으로, 곧 지능으로 바꾸는 일로 정의하며, GPU를 '새로운 석유'에, 추론 엔진을 석유를 운동으로 바꾸는 엔진에 빗댔다.

그는 1902년 맨해튼에 13만 마리의 말이 있었고 배설물 문제로 학술 대회까지 열렸지만 '할 수 있는 게 없다'는 결론이 났는데, 불과 10년 뒤인 1912년에는 자동차가 말을 추월했다는 일화를 들었다. 언어모델에서 이 '1912년의 순간'은 바로 작년이었다고 표현하며, 모델 규모가 2018년 1억 파라미터에서 오늘날 오픈소스 1조 파라미터, 프런티어 5~10조 파라미터로 폭발적으로 커진 흐름을 짚었다.

강연의 한 축은 '토큰 한 개의 일생'이었다. 요청이 들어오면 여러 GPU로 스케줄링되고, KV 캐시에서 이미 본 토큰인지 확인한 뒤, 프리필과 디코드라는 두 핵심 단계를 거친다. 프리필은 많은 입력 토큰을 한 번에 처리하는 연산 집약적 작업으로 학습과 비슷하고, 디코드는 토큰을 하나씩 생성하느라 매번 모델 전체를 불러와야 해 메모리 대역폭에 묶인다. 그래서 둘을 서로 다른 GPU·칩에 나눠 배치하며, 엔비디아가 디코드용으로 그록(LPU)을 인수하고 OpenAI가 세레브라스와 협력하는 흐름도 이런 차이에서 비롯된다.

대규모로 서빙하면 작은 확률로만 나타나는 까다로운 버그가 등장한다. 푸는 커널 오류로 로짓이 NaN이 되면 모델이 같은 토큰을 반복하고, 도구 호출 처리가 깨지면 같은 검색을 끝없이 시도하는 무한 루프에 빠지며, 커널의 오프바이원 오류로 초기화되지 않은 메모리를 읽어 갑자기 중국어를 쏟아내는 사례 등을 소개했다. 그는 또 캐시 인식 기반으로 새 요청과 진행 중인 대화를 다른 GPU 묶음에 보내는 단순한 라우팅만으로도 최대 40% 빠른 서빙이 가능했다고 밝혔다.

후반부에서는 두 연구가 소개됐다. 첫째는 여러 연산을 하나로 합치는 '메가 커널'로, 커널 실행·종료 사이의 유휴 시간을 줄여 어텐션에서 30~70% 속도 향상과 H100에서 72% 대역폭 활용을 달성했다(다만 작성에 막대한 노력이 든다). 둘째는 트랜스포머 블록을 반복 사용하는 루프 모델 'PARSE'로, 상태공간모델 이론을 빌려 A·B 행렬을 제약해 스펙트럼 반경을 1 미만으로 만들어 학습을 안정화했다. 그 결과 같은 파라미터로 더 높은 품질을 얻었고, 데이터가 늘수록 반복 횟수도 함께 키우는 것이 유리하다는 스케일링 법칙이 관찰됐다.

주요 인사이트

추론을 '전기를 지능으로 바꾸는 엔진'으로 보는 관점은, 모델 자체만큼이나 GPU 커널과 서빙 구조가 성능과 비용을 좌우함을 보여준다.
프리필(연산 집약)과 디코드(메모리 대역폭 집약)의 성격 차이가, 두 단계를 다른 칩에 나눠 배치하고 디코드 전용 칩(LPU 등)이 등장하는 산업 흐름의 근본 원인이다.
대규모 서빙에서 0.001% 확률의 버그가 같은 토큰 반복·무한 루프·갑작스러운 중국어 출력으로 드러나는 사례는, 작은 규모에서 멀쩡하던 시스템이 규모에서 깨진다는 교훈을 준다.
메가 커널이 H100에서 72% 대역폭 활용(이론 한계 근접)을 달성하지만 엔지니어 한 명이 1년에 특정 하드웨어·소수 모델만 감당할 만큼 노력이 든다는 점은, 성능과 개발 비용의 trade-off를 보여준다.
오늘날 거의 모든 모델에 반복(recurrence)이 없는데도 PARSE의 스케일링 법칙은 데이터가 많을수록 반복을 늘리는 게 낫다고 시사해, 사전학습 방식에 개선 여지가 있음을 암시한다.

자주 묻는 질문

프리필과 디코드는 어떻게 다른가?

프리필은 수만 개의 입력 토큰을 한 번에 처리해 첫 출력을 만드는 연산 집약적 단계로 학습과 비슷하다. 디코드는 토큰을 하나씩 생성하며 매번 모델 전체 가중치를 불러와야 해 연산량은 적지만 메모리 대역폭에 묶인다. 성격이 달라 서로 다른 GPU·칩에 나눠 배치한다.

KV 캐시는 왜 GPU에서 CPU, SSD로 옮겨 저장하나?

가능한 한 많은 사용자·세션의 요청을 캐시해 두면 재계산을 줄일 수 있는데, GPU 메모리가 금세 가득 차기 때문이다. 그래서 GPU에서 시작해 CPU 메모리, 다시 디스크(SSD)로 넘기며, 운영체제의 페이징과 거의 같은 스케줄링 문제(예: LRU 방식 제거)가 그대로 나타난다.

메가 커널은 무엇이고 왜 빠른가?

보통은 연산마다 커널을 따로 작성하는데, 그 사이에 커널 실행·종료와 꼬리 효과로 GPU 유휴 시간이 쌓인다. 메가 커널은 여러 연산을 하나의 커널로 합쳐 이 유휴 시간을 줄인다. 어텐션에서 30~70% 빨라지고 H100에서 72% 대역폭 활용을 달성했지만, 작성에 큰 노력이 든다.

루프 트랜스포머 PARSE의 핵심 아이디어는?

트랜스포머의 일부 블록을 여러 번 반복 사용하되, 잔차의 동역학을 상태공간모델 관점으로 분석해 A·B 행렬을 제약했다. A를 음의 대각 행렬로 만들어 스펙트럼 반경을 1 미만으로 낮추면 학습이 안정화된다. 같은 파라미터로 더 높은 품질을 얻고, 데이터가 늘수록 반복을 늘리는 게 유리하다는 스케일링 법칙도 관찰됐다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗