AI VIDEO BRIEFING
스페큘러티브 디코딩으로 LLM 추론 속도 2~4배 높이는 원리
작은 초안 모델이 다음 토큰을 미리 추측하고 큰 목표 모델이 병렬로 검증하는 스페큘러티브 디코딩은 출력 품질을 유지하면서 LLM 추론 속도를 끌어올린다. IBM 설명을 토대로 정리했다.

핵심 메시지
쉽게 이해하기
일반적인 LLM 생성은 자기회귀 과정으로, 입력을 토큰화해 모델을 통과시키는 순전파와 토큰 하나를 고르는 디코딩이 번갈아 일어난다. 한 번 모델을 돌릴 때마다 토큰 하나만 나오기 때문에 긴 문장을 만들수록 느려진다.
스페큘러티브 디코딩은 작은 초안 모델이 앞서가며 여러 토큰을 추측하고, 큰 목표 모델이 그 추측을 병렬로 확인하는 방식으로 이 과정을 보완한다. 빠르게 타이핑하며 작가의 문체를 흉내 내는 편집자와, 그 작업을 검토하는 작가에 비유할 수 있다.
동작은 세 단계다. 먼저 토큰 추측에서 예컨대 30억 파라미터급 초안 모델이 k개의 토큰을 미리 만들고 각 추측의 확률(DP)을 함께 낸다. 다음으로 병렬 검증에서 추측이 모두 맞다고 가정한 입력을 700억 파라미터급 목표 모델에 넣어, 다음 토큰뿐 아니라 앞선 추측들에 대한 목표 모델의 신뢰도(TP)까지 한 번에 얻는다.
마지막 거부 표본추출에서는 각 토큰을 하나씩 비교해 받아들이거나 버린다. 영상의 단순한 규칙은 목표 확률이 초안 확률 이상이면 수용, 작으면 거부다. 첫 거부가 나오면 그 뒤 추측은 모두 버리고 목표 모델이 그 자리를 다시 채운다. “why did the chicken” 예시에서 cross(0.9≥0.7)와 the는 수용되고 farm(0.7<0.8)은 거부돼 목표 모델이 road로 교정한다.
이렇게 목표 모델을 한 번 순전파하는 비용으로 여러 토큰을 얻는다. 최악의 경우 첫 토큰이 거부돼도 교정으로 한 개는 확보되고, 최선의 경우 k+1개까지 얻는다. 간단한 단어는 큰 모델에 과한 일이므로, 작은 모델에 일을 맡기고 두 모델을 함께 돌려 GPU 자원을 더 효율적으로 쓴다.
주요 인사이트
- 속도 향상은 토큰 추측과 병렬 검증에서 나오지만, 품질을 지키는 열쇠는 거부 표본추출이다. 초안 모델의 출력에서 표본을 뽑되 목표 모델의 분포를 복원하기 때문에 품질 손실이 없다.
- 핵심 통찰은 “간단한 단어 예측에는 큰 모델이 과하다”는 점이다. 쉬운 부분을 작은 모델에 맡기면 같은 시간에 더 많은 토큰을 만들 수 있다.
- 결과적으로 지연시간과 연산 비용을 줄이고 메모리 사용을 효율화하면서도 출력 품질은 동일하게 유지한다.
자주 묻는 질문
스페큘러티브 디코딩의 기본 슬로건은 무엇인가요?
“초안과 검증(draft and verify)”입니다. 작은 초안 모델이 미래의 토큰을 추측하고, 큰 목표 모델이 그 추측을 병렬로 검증합니다.
세 단계는 각각 무엇인가요?
토큰 추측(작은 초안 모델이 k개 토큰 생성), 병렬 검증(큰 목표 모델이 동시에 확인), 거부 표본추출(확률을 비교해 수용·거부)입니다.
속도는 얼마나 빨라지나요?
영상에 따르면 평균적으로 일반 LLM 생성보다 2~3배 빠른 추론 속도를 얻을 수 있고, 한 번의 목표 모델 순전파로 최선의 경우 k+1개의 토큰을 만들 수 있습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗