AI VIDEO BRIEFING

스페큘러티브 디코딩으로 LLM 추론 속도 2~4배 높이는 원리

작은 초안 모델이 다음 토큰을 미리 추측하고 큰 목표 모델이 병렬로 검증하는 스페큘러티브 디코딩은 출력 품질을 유지하면서 LLM 추론 속도를 끌어올린다. IBM 설명을 토대로 정리했다.

LLM을 더 빠르게: 초안과 검증으로 속도를 높이는 스페큘러티브 디코딩 영상 대표 이미지

핵심 메시지

  • 스페큘러티브 디코딩은 출력 품질을 떨어뜨리지 않고 LLM 추론 속도를 높이는 기법이다.
  • 작은 초안(draft) 모델이 다음 토큰들을 추측하고, 큰 목표(target) 모델이 이를 병렬로 검증하는 “초안과 검증” 방식이다.
  • 토큰 추측·병렬 검증·거부 표본추출(rejection sampling)의 세 단계로 동작한다.
  • 거부 표본추출이 목표 모델의 분포를 보존해 품질 저하 없이 속도만 높이는 핵심 단계다.
  • 평균적으로 일반 생성 대비 2~3배 빠른 추론 속도를 얻을 수 있다.

쉽게 이해하기

일반적인 LLM 생성은 자기회귀 과정으로, 입력을 토큰화해 모델을 통과시키는 순전파와 토큰 하나를 고르는 디코딩이 번갈아 일어난다. 한 번 모델을 돌릴 때마다 토큰 하나만 나오기 때문에 긴 문장을 만들수록 느려진다.

스페큘러티브 디코딩은 작은 초안 모델이 앞서가며 여러 토큰을 추측하고, 큰 목표 모델이 그 추측을 병렬로 확인하는 방식으로 이 과정을 보완한다. 빠르게 타이핑하며 작가의 문체를 흉내 내는 편집자와, 그 작업을 검토하는 작가에 비유할 수 있다.

동작은 세 단계다. 먼저 토큰 추측에서 예컨대 30억 파라미터급 초안 모델이 k개의 토큰을 미리 만들고 각 추측의 확률(DP)을 함께 낸다. 다음으로 병렬 검증에서 추측이 모두 맞다고 가정한 입력을 700억 파라미터급 목표 모델에 넣어, 다음 토큰뿐 아니라 앞선 추측들에 대한 목표 모델의 신뢰도(TP)까지 한 번에 얻는다.

마지막 거부 표본추출에서는 각 토큰을 하나씩 비교해 받아들이거나 버린다. 영상의 단순한 규칙은 목표 확률이 초안 확률 이상이면 수용, 작으면 거부다. 첫 거부가 나오면 그 뒤 추측은 모두 버리고 목표 모델이 그 자리를 다시 채운다. “why did the chicken” 예시에서 cross(0.9≥0.7)와 the는 수용되고 farm(0.7<0.8)은 거부돼 목표 모델이 road로 교정한다.

이렇게 목표 모델을 한 번 순전파하는 비용으로 여러 토큰을 얻는다. 최악의 경우 첫 토큰이 거부돼도 교정으로 한 개는 확보되고, 최선의 경우 k+1개까지 얻는다. 간단한 단어는 큰 모델에 과한 일이므로, 작은 모델에 일을 맡기고 두 모델을 함께 돌려 GPU 자원을 더 효율적으로 쓴다.

주요 인사이트

  • 속도 향상은 토큰 추측과 병렬 검증에서 나오지만, 품질을 지키는 열쇠는 거부 표본추출이다. 초안 모델의 출력에서 표본을 뽑되 목표 모델의 분포를 복원하기 때문에 품질 손실이 없다.
  • 핵심 통찰은 “간단한 단어 예측에는 큰 모델이 과하다”는 점이다. 쉬운 부분을 작은 모델에 맡기면 같은 시간에 더 많은 토큰을 만들 수 있다.
  • 결과적으로 지연시간과 연산 비용을 줄이고 메모리 사용을 효율화하면서도 출력 품질은 동일하게 유지한다.

자주 묻는 질문

스페큘러티브 디코딩의 기본 슬로건은 무엇인가요?

“초안과 검증(draft and verify)”입니다. 작은 초안 모델이 미래의 토큰을 추측하고, 큰 목표 모델이 그 추측을 병렬로 검증합니다.

세 단계는 각각 무엇인가요?

토큰 추측(작은 초안 모델이 k개 토큰 생성), 병렬 검증(큰 목표 모델이 동시에 확인), 거부 표본추출(확률을 비교해 수용·거부)입니다.

속도는 얼마나 빨라지나요?

영상에 따르면 평균적으로 일반 LLM 생성보다 2~3배 빠른 추론 속도를 얻을 수 있고, 한 번의 목표 모델 순전파로 최선의 경우 k+1개의 토큰을 만들 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#스페큘러티브디코딩#LLM#추론최적화#토큰생성#IBM