AI VIDEO BRIEFING

LLM 지능 효율 높이기: 토큰이 아닌 컨텍스트로 비용을 줄이는 엔트로피 관점과 멀티에이전트 사례

램프(RAMP)의 벤 가이스트가 Compile 26에서 발표한 강연 정리. 모델은 똑똑해져도 효율은 떨어진다는 문제와, 전역 KV 캐시·희소 어텐션·잠재 표현 주입으로 토큰을 크게 줄인 세 가지 연구 사례를 소개한다.

"지능은 토큰이 아니다": 컨텍스트로 LLM 효율을 끌어올리는 법 영상 대표 이미지

핵심 메시지

  • LLM은 점점 똑똑해지지만 "효율적으로 똑똑해지는" 것은 아니며, 비용을 더 낼수록 지능은 수확 체감을 보인다.
  • 우리는 단위 가격에 지능을 산다고 들었지만 실제로 사는 것은 토큰이며, 지능은 토큰과 같지 않다.
  • LLM을 엔트로피(혼돈) 감소 기계로 보면, 엔트로피는 투입한 작업량과 이미 가진 정보 양쪽으로 줄어든다.
  • 멀티 에이전트가 컨텍스트를 공유(전역 KV 캐시)하면 정확도는 유지한 채 워커 토큰을 42~57% 줄였다.
  • 문서를 통째로 넣는 대신 16개의 잠재 표현으로 컨텍스트를 주입하니, RAG-50보다 정확도가 높으면서 입력 토큰을 372배 적게 썼다.

쉽게 이해하기

램프(RAMP)의 벤 가이스트가 Compile 26 행사에서 "지능 효율(intelligence efficiency)"을 주제로 발표했다. 그는 세 개의 그래프로 업계의 현 위치를 짚는다. ChatGPT 등장과 LLM 붐 이후 지능은 지수적으로 치솟았고, 그에 맞춰 토큰 사용량도 폭증했다. 그러나 모델은 똑똑해질 뿐 "효율적으로 똑똑해지지는" 않으며, 돈을 더 낼수록 최신 모델일수록 오히려 수확 체감이 나타난다고 본다.

발표자는 사람들이 "단위 경제 가격에 지능을 살 수 있다"고 들었지만 실제로 지불하는 것은 토큰이라고 지적한다. 지능과 토큰은 근본적으로 다른데도 이 둘이 혼동되고 있으며, 이 차이가 결국 여러 공급업체의 발목을 잡을 것이라고 전망한다. 램프 데이터에서도 2025년 1월 이후 월간 토큰 지출이 13배로 늘었고, 우버와 메타 같은 곳은 비용 부담 때문에 무분별한 토큰 사용을 억제하기 시작했다고 전한다.

그가 찾은 해법의 핵심은 컨텍스트다. 모델에 더 많은 컨텍스트를 주면 같은 작업을 더 적은 노력으로 끝낼 만큼 효율이 올라간다는 것이다. 그는 LLM과 에이전트를 엔트로피 감소 기계로 정의한다. 정보 이론(섀넌 엔트로피)에서는 관측 후 상태의 엔트로피가 줄고, 열역학에서는 줄일 수 있는 엔트로피의 양이 투입한 작업량으로 상한이 정해진다. 두 관점을 합치면 엔트로피 감소는 "작업량"과 "이미 가진 정보" 양쪽에 의해 결정된다. 방을 치우려면 더러운 옷이 어디 있는지(정보) 알아야 손을 댈(작업) 수 있다는 비유다. 현대 LLM은 사고의 사슬·추론처럼 작업량에는 집중하지만 정보 쪽은 덜 챙긴다는 것이 그의 진단이다.

첫 번째 사례는 멀티 에이전트 시스템이다. 감독 에이전트가 워커를 띄우는 구조는 토큰을 천문학적으로 소모하고, 감독과 각 워커가 만들어내는 컨텍스트가 전역 상태로 공유되지 않아 같은 정보를 중복 발견하는 낭비가 생긴다. 그는 공유 전역 KV 캐시를 두고, 새 워커를 띄울 때 그 작업에 필요한 정보만 압축해 초기 KV 캐시에 담아 넘겼다. 그 결과 정확도는 동일하게 유지하면서 워커 에이전트 토큰을 42~57%, 전체 토큰을 21~31% 줄였다.

두 번째는 희소 어텐션(sparse attention)을 리랭커로 모델링한 연구다. 딥시크의 희소 어텐션은 어떤 토큰을 생성할 때 과거 토큰 중 무엇이 필요한지 고르는데, 이는 RAG의 리랭커와 닮았다. 라이트닝 인덱서가 만든 쿼리·키로 멀티홉 QA 데이터셋의 문서 점수를 계산하니, 단순한 점수화만으로 최신 리랭커 모델과 맞먹거나 능가했다. 세 번째는 스탠퍼드 SNAP 연구실과 한 작업으로, 컨텍스트를 텍스트·이미지처럼 하나의 모달리티로 취급하는 메모리 모듈이다. 문서와 질의를 받아 16개의 잠재 표현을 만들어 동결된 LLM(Qwen 8B)에 직접 주입했더니, TriviaQA에서 가장 관련 높은 50개 문서를 넣은 RAG-50의 정확도 55%를 넘어 63%를 기록했고, 입력 토큰은 372배나 적게 썼다.

발표자는 컨텍스트를 정확히 주입하는 모델의 "성배"로 세 가지 조건을 제시한다. 추론 시점에 쓸 수 있을 만큼 지연이 낮을 것, 대규모 말뭉치로 확장될 것, 그리고 기반 LLM을 바꾸는 전환 비용이 사실상 없을 것. 새 추론 모델이 나와도 이 컨텍스트 주입 구조는 그대로 유지할 수 있어야 한다는 의미다.

주요 인사이트

  • "지능을 산다"는 마케팅과 달리 실제 청구되는 단위는 토큰이며, 이 간극이 비용 구조의 핵심 리스크라는 점을 데이터로 짚는다.
  • 엔트로피 감소를 작업량과 정보의 합으로 보는 틀은, 추론(작업량)에만 매달리는 대신 컨텍스트(정보)를 늘리는 쪽으로 투자 방향을 바꾸자는 제안이다.
  • 멀티 에이전트의 비효율 상당 부분은 컨텍스트 비공유에서 오며, 전역 KV 캐시 공유만으로도 정확도 손실 없이 토큰을 큰 폭으로 줄일 수 있다.
  • 컨텍스트를 토큰 공간이 아니라 잠재 공간의 별도 모달리티로 다루면, 같은 정보를 훨씬 적은 토큰으로 전달해 효율을 극적으로 높일 수 있다.

자주 묻는 질문

발표자는 왜 "지능은 토큰이 아니다"라고 말하나?

사람들은 단위 가격에 지능을 산다고 기대하지만 실제로 지불하는 것은 토큰이며, 비용을 더 내도 지능은 수확 체감을 보이기 때문이다. 둘을 혼동하면 비용 구조가 왜곡된다는 지적이다.

멀티 에이전트에서 컨텍스트를 공유하면 효과가 얼마였나?

전역 KV 캐시로 컨텍스트를 공유하자 같은 정확도에서 워커 에이전트 토큰이 42~57%, 전체 토큰이 21~31% 줄었다.

컨텍스트를 모달리티로 취급한 실험의 결과는?

문서와 질의로 16개의 잠재 표현을 만들어 동결된 Qwen 8B에 주입하니, TriviaQA에서 RAG-50의 55%를 넘는 63% 정확도를 입력 토큰 372배 절감으로 달성했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식