AI VIDEO BRIEFING

AI 에이전트 토큰 비용 절감 5가지 방법: 프롬프트 캐싱부터 대화 기록 정리까지

AWS 개발자 애드버킷 에릭 핸쳇이 에이전트 토큰 비용을 줄이는 다섯 가지 실전 기법을 정리했다. 프롬프트 캐싱, 난이도별 모델 라우팅, 도구 결과 분리, 루프 제한, 대화 기록 정리가 핵심이다.

AI 에이전트 토큰 비용, 이렇게 줄인다 — AWS 개발자가 꼽은 5가지 방법 영상 대표 이미지

핵심 메시지

  • 시스템 프롬프트(가능하면 도구 프롬프트와 메시지까지) 캐싱으로 매 호출마다 반복 전송되는 토큰을 줄인다.
  • 모든 작업에 가장 비싼 모델을 쓰지 말고, 작업 난이도에 따라 저렴한 모델과 고성능 모델로 라우팅한다.
  • 큰 도구 실행 결과는 외부에 저장하고 요약본만 컨텍스트에 넣어 매 루프마다 전체가 다시 전송되지 않게 한다.
  • 도구 호출 루프에 최대 반복 횟수를 설정해 무한 루프로 인한 토큰 폭증을 막는다.
  • 다중 턴 대화에서는 슬라이딩 윈도우로 최근 메시지만 보내 누적된 대화 기록 전송 비용을 줄인다.

쉽게 이해하기

AWS의 시니어 개발자 애드버킷 에릭 핸쳇은 에이전트를 만들고 운영할 때 토큰 비용을 줄이는 다섯 가지 방법을 라이트닝 토크 형식으로 소개했다. 그는 AWS의 Strands 에이전트를 예시로 들었지만, 제시한 원리는 여러 LLM 제공자에 두루 적용된다고 설명했다.

첫째는 캐싱이다. 시스템 프롬프트에 캐싱 옵션을 켜면 첫 호출에서만 전체 프롬프트를 보내고, 이후 호출에서는 크게 줄어든 형태로 전달된다. 도구 프롬프트와 메시지도 같은 방식으로 캐싱할 수 있다. 둘째는 난이도 기반 라우팅으로, 간단한 작업에는 저렴한 모델을, 어려운 작업에만 최신 고성능 모델을 쓰고, 어떤 모델을 쓸지조차 값싼 모델로 판단하게 할 수 있다.

셋째는 도구 결과 분리다. 큰 도구 실행 결과를 매번 컨텍스트에 그대로 넣으면 에이전트가 루프를 돌 때마다 같은 데이터가 반복 전송된다. 결과를 로컬이나 클라우드에 저장하고 요약본만 넘기면 토큰을 크게 아낄 수 있다. 넷째는 도구 호출 루프에 최대 반복 횟수를 거는 것으로, 도구가 10~20번씩 반복되거나 무한 루프에 빠지는 사고를 막는다.

다섯째는 대화 기록 정리다. 다중 턴 대화에서는 매 호출마다 전체 대화 기록이 다시 전송되어 수백~수천 토큰이 소모된다. Strands의 슬라이딩 윈도우 대화 관리자는 최근 10개 메시지만 보내도록 하며, 초반 맥락이 사라지는 단점은 기록을 요약해 컨텍스트에 넣는 방식으로 보완한다.

핸쳇은 배포 전에 관측(observability) 도구로 각 도구 호출이 얼마나 오래, 몇 번 반복되는지 점검해 비효율을 찾아 개선하라고 권했다. 다섯 기법은 모두 '같은 데이터를 매 호출마다 LLM에 반복해서 보내지 않는다'는 하나의 원칙으로 수렴한다.

주요 인사이트

  • 토큰 비용은 모델 단가뿐 아니라 '같은 내용을 몇 번 반복 전송하는가'에서 크게 갈린다.
  • 모델을 하나로 고정하지 말고 난이도에 맞춰 섞어 쓰는 것이 비용 최적화의 핵심이다.
  • 관측 도구로 도구 호출의 실행 시간과 반복 횟수를 먼저 측정해야 어디서 토큰이 새는지 보인다.
  • 슬라이딩 윈도우처럼 비용을 줄이는 기법에는 초반 맥락 손실 같은 트레이드오프가 따르므로 요약으로 보완해야 한다.

자주 묻는 질문

프롬프트 캐싱은 어떻게 토큰을 절약하나요?

캐싱을 켜면 첫 호출에서만 전체 시스템 프롬프트를 보내고, 이후 호출에서는 크게 줄어든 형태로 전달됩니다. 도구 프롬프트와 메시지도 같은 방식으로 캐싱할 수 있습니다.

큰 도구 실행 결과는 어떻게 처리하라고 권하나요?

결과를 로컬이나 클라우드에 저장하고 요약해서 컨텍스트에는 요약본만 넣으라고 권합니다. 그러면 에이전트가 루프를 돌 때마다 전체 결과가 다시 전송되지 않습니다.

다중 턴 대화에서 토큰을 아끼는 방법은 무엇인가요?

슬라이딩 윈도우 대화 관리자로 최근 10개 정도의 메시지만 전송하고, 사라지는 초반 맥락은 요약본을 컨텍스트에 넣어 보완합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식