AI VIDEO BRIEFING

터보퀀트로 AI 에이전트 검색 메모리 5배 절감: KV 캐시·벡터 검색 압축 정리

임베딩을 32비트 대신 3~4비트로 저장해 검색 품질을 깨지 않고 메모리를 5배 줄이는 구글의 터보퀀트 알고리즘과, 이를 RAG·에이전트 검색에 적용하는 법을 정리했다.

터보퀀트(TurboQuant): 검색 품질은 그대로, AI 에이전트 검색 메모리를 5배 줄이는 압축법 영상 대표 이미지

핵심 메시지

  • AI 에이전트는 맥락(context)이 늘수록 KV 캐시가 커져 성능이 떨어지며, 로컬 모델에서는 KV 캐시가 모델 크기를 넘어서기도 한다.
  • 임베딩은 기본적으로 32비트 정밀도를 쓰지만 검색에는 3~4비트면 충분해, 검색용 메모리의 약 5배가 낭비된다.
  • 터보퀀트는 구글이 ICLR 2026에서 공개한 압축 알고리즘으로, 임베딩을 32비트 대신 3~4비트로 저장한다.
  • 핵심 통찰은 "검색은 벡터의 생김새가 아니라 쿼리에 무엇이 가장 가까운지만 신경 쓴다"는 것이다.
  • 터보퀀트는 KV 캐시뿐 아니라 RAG·벡터 검색에도 쓸 수 있으며, 라이브러리가 대부분을 처리해 직접 튜닝할 것이 거의 없다.

쉽게 이해하기

슈퍼에이전틱(Superagentic) AI의 창업자 샤시 자그탑은 검색 품질을 깨지 않으면서 AI 에이전트의 검색 메모리 비용을 5배 줄이는 방법으로 발표를 연다. 범용 에이전트를 써 본 사람이라면 맥락이 길어질수록 성능이 떨어지는 것을 봤을 텐데, 그 주된 원인이 대화 이력에 해당하는 KV 캐시라는 설명이다.

클라우드 기반 모델은 KV 캐시를 알아서 처리해 사용자가 이 문제를 겪지 않는다. 그러나 모델을 직접 기기에 올리면 모델과 맥락을 함께 적재해야 하고, 맥락이 커지면 KV 캐시가 커져 때로는 모델 크기보다 커진다. 특히 맥(Mac)에서는 해시·벡터 인덱스가 하나의 공유 RAM 풀을 두고 다투기 때문에 상황이 더 나빠진다.

문제의 본질은 임베딩이 필요 이상으로 메모리를 쓴다는 점이다. 기본값은 32비트 전체 정밀도지만 검색에는 3~4비트면 되므로, 검색에서 약 5배의 메모리가 낭비된다. 기존 해법으로 양자화(모델을 4·8비트로 압축), 컨텍스트 컴팩션(맥락 끝에서 요약), 더 작은 임베딩, CPU·디스크 오프로딩 등이 있었으나 각각 품질·속도 저하나 특수 하드웨어가 필요하다는 절충이 따랐다.

터보퀀트는 구글 연구팀이 ICLR 2026에서 공개한 압축 알고리즘으로, 임베딩을 32비트 대신 3~4비트로 저장한다. 내부적으로 벡터를 압축하는 폴라퀀트(PolarQuant)와 남은 오차를 단 1비트로 바로잡는 QJL 두 기법을 쓴다. 머신러닝 배경이면 원논문을, 소프트웨어 배경이면 구글의 출시 블로그 글을 참고하라고 권한다.

동작은 두(혹은 세) 단계다. 먼저 벡터를 섞어 데이터를 고르게 만들고, 스칼라 양자화로 버킷에 반올림한 뒤, 마지막 QJL 단계에서 1비트로 남은 오차를 보정한다. 사용자는 비트 예산만 정하면 되고 나머지는 라이브러리가 처리한다. 업계가 보는 이상적 지점은 3.5비트, 실무에서는 대략 4비트 부근에 안착한다.

주요 인사이트

  • 검색은 벡터가 32비트 전체 정밀도인지 터보퀀트인지 상관하지 않고 쿼리에 가장 가까운 것만 본다. 전통적 압축은 품질이 떨어질 때까지 그 차이를 알아채지 못한다.
  • 터보퀀트는 이미 llama.cpp, MLX, Ollama, LM Studio 등 대부분의 추론 엔진이 채택해 가고 있어, 시간이 지나면 엔진 안에 기본 탑재될 전망이다.
  • 터보퀀트는 추론 계층의 KV 캐시뿐 아니라 RAG와 벡터 검색의 임베딩 인덱스 압축에도 동일하게 쓸 수 있다.
  • 슈퍼에이전틱 AI가 만든 오픈소스 라이브러리 터보에이전트(TurboAgent)는 기존 에이전트 프레임워크와 벡터 DB(파인콘·크로마 등)를 그대로 두고 검색 계층만 교체해 효과를 얻게 한다.
  • 데모에서 베이스라인 float32 인덱스는 8KB였지만 터보퀀트 적용 후 1.6KB로 약 5배 작아졌고, 두 검색기 모두 근거 있는(grounded) 동일한 답을 냈다.

자주 묻는 질문

맥락이 길어지면 AI 에이전트 성능이 떨어지는 이유는 무엇인가?

대화 이력에 해당하는 KV 캐시가 맥락과 함께 커지기 때문이다. 로컬 기기에서는 KV 캐시가 모델 크기를 넘어서기도 하며, 맥에서는 공유 RAM 풀을 두고 인덱스들이 경쟁해 더 나빠진다.

터보퀀트는 어떻게 메모리를 5배까지 줄이는가?

임베딩을 32비트 대신 3~4비트로 저장한다. 폴라퀀트로 벡터를 압축하고 QJL로 남은 오차를 1비트로 보정하는데, 검색은 가장 가까운 벡터만 보므로 품질을 유지하면서 메모리만 줄어든다.

터보퀀트를 쓰려면 무엇을 바꿔야 하나?

발표자는 기존 에이전트 프레임워크와 벡터 DB는 그대로 두고 검색 계층만 터보에이전트로 교체하라고 권한다. 비트 예산만 고르면 라이브러리가 나머지를 처리하므로, 자기 데이터로 재현율·지연 벤치마크를 돌려 보라고 조언한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식