AI VIDEO BRIEFING

LLM-D 분산 추론 완벽 정리: 쿠버네티스로 LLM을 빠르고 싸게 서빙하기

오픈소스 프로젝트 LLM-D가 추론 게이트웨이와 프리필·디코드 분리로 LLM 추론을 어떻게 가속하는지, IBM이 공개한 지연·비용 개선 수치와 함께 정리했습니다.

LLM-D로 살펴보는 대규모 AI 추론: 쿠버네티스에서 LLM을 더 빠르고 저렴하게 돌리는 법 영상 대표 이미지

핵심 메시지

  • LLM-D는 쿠버네티스 클러스터에 LLM 추론 작업을 분산해 더 빠르고 저렴하게 실행하는 오픈소스 프로젝트로, 이름의 D는 '분산(distributed)'을 뜻한다.
  • RAG 애플리케이션이나 코딩 어시스턴트 같은 에이전트 요청은 성격이 제각각이라, 단순 라운드로빈 분배로는 혼잡과 토큰 간 지연이 생긴다.
  • 추론 게이트웨이가 현재 부하, 예상 지연, 캐시 적중 가능성 등을 따져 요청을 지능적으로 라우팅한다.
  • 요청 처리를 프리필(prefill)과 디코드(decode)로 나누고 서로 다른 하드웨어에서 독립적으로 확장하되 같은 KV 캐시를 공유한다.
  • IBM 사례에서는 P90 지연이 약 3배, 첫 토큰 응답 시간(TTFT)이 57배 개선됐다.

쉽게 이해하기

영상은 공항 관제탑에 비유해 LLM 추론을 설명한다. 크고 작은 비행기가 여러 곳에서 몰려오듯, AI 모델에도 성격이 다른 요청이 쏟아진다. 입력 토큰이 많고 출력이 적은 RAG형 요청과, 코딩 보조처럼 길게 이어지는 에이전트형 요청이 뒤섞이는 상황이다. LLM-D는 이 요청들을 효율적으로 활주로에 배정하는 관제탑 역할을 자처한다.

핵심 문제는 균일한 복제본에 요청을 하나씩 순서대로 나눠 주는 단순 라운드로빈 방식이다. 이렇게 하면 혼잡이 생기고, 사용자는 요청이 처리되기까지 걸리는 토큰 간 지연(inter-token latency)을 체감하게 된다. 게다가 많은 요청이 비슷한 내용을 담고 있어, 접두어(prefix) 라우팅과 캐싱으로 비슷한 작업을 같은 워크로드로 보내면 하드웨어 가속 연산량을 줄일 수 있다.

LLM-D는 추론 게이트웨이가 들어오는 프롬프트를 평가해 여러 지표로 라우팅한다. 현재 요청 부하, 예상 처리 시간, 그리고 데이터가 이미 캐시에 있을 가능성 등이다. 이후 '엔드포인트 피커'가 이 계산을 바탕으로 요청을 두 단계로 처리한다. 요청을 평가하는 프리필과 실제 응답을 만들어 내는 디코드다.

특히 LLM-D는 프리필과 디코드를 분리(disaggregate)한다. 프리필은 메모리가 큰 GPU를 쓰고, 디코드는 별도로 확장하되 비슷한 요청에 대해 같은 KV 캐시를 공유한다. 이 구조 덕분에 쿠버네티스 같은 플랫폼 위에서 추론을 효율적으로 라우팅하고 분산할 수 있다. 추론 엔진으로는 vLLM 같은 것이 예로 언급된다.

성과는 수치로 제시된다. LLM-D 적용으로 가장 느린 하위 10% 요청을 뜻하는 P90 지연이 약 3배 개선됐고, 첫 토큰이 나오기까지의 시간(TTFT)은 57배 좋아졌다. 이는 서비스 수준 목표(SLO)나 대형 사업자가 요구하는 품질 보증을 맞춰야 하는 고부하·미션 크리티컬 AI 워크플로에 특히 중요하다.

주요 인사이트

  • 추론 성능은 GPU를 더 붙이는 것만으로 해결되지 않으며, 요청의 성격을 읽고 알맞은 워크로드로 보내는 '지능적 라우팅'이 지연과 비용을 동시에 좌우한다.
  • 프리필과 디코드는 자원 요구가 다르므로, 둘을 한 덩어리로 묶어 두면 낭비가 생긴다. 분리해 각각 확장하는 것이 효율의 열쇠다.
  • 비슷한 프롬프트가 반복되는 실제 서비스 특성상, 접두어 캐싱과 KV 캐시 공유는 연산 자체를 줄여 비용 절감으로 직결된다.
  • TTFT 57배 같은 수치는 체감 반응성과 직결돼, 코딩 어시스턴트나 에이전트처럼 상호작용이 잦은 애플리케이션에서 사용자 경험을 크게 바꾼다.
  • LLM-D가 쿠버네티스 위에서 동작한다는 점은, 기존 클라우드 네이티브 인프라 위에 대규모 LLM 서빙을 얹으려는 조직에 현실적인 선택지가 된다.

자주 묻는 질문

LLM-D의 'D'는 무엇을 의미하나요?

분산(distributed)을 뜻합니다. 쿠버네티스 클러스터 전반에 추론 워크로드를 분산해 LLM을 더 빠르고 저렴하게 실행한다는 의미입니다.

프리필과 디코드를 나누는 이유는 무엇인가요?

프리필은 들어온 요청을 평가하는 단계로 메모리가 큰 GPU를 활용하고, 디코드는 응답을 생성하는 단계로 별도 확장합니다. 둘을 분리하되 비슷한 요청에 대해 같은 KV 캐시를 공유해 효율을 높입니다.

영상에서 제시된 성능 개선 수치는 어느 정도인가요?

LLM-D 적용 시 가장 느린 하위 10% 요청을 뜻하는 P90 지연이 약 3배, 첫 토큰 응답 시간(TTFT)이 57배 개선됐다고 소개합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식