AI VIDEO BRIEFING

AI 코딩 토큰 비용 94% 절감 — 로컬 코드 인덱스로 입력 컨텍스트 줄이기

AI 코딩 도구 요금이 갑자기 치솟은 개발자가 원인을 추적해 보니 비용의 90%가 '입력 컨텍스트'였다. 로컬 코드 인덱스로 토큰을 94% 줄인 실험과 교훈을 정리했다.

AI 코딩 비용의 90%는 '입력'이었다 — 로컬 코드 인덱스로 토큰 94% 줄인 실험 영상 대표 이미지

핵심 메시지

  • AI 코딩 비용의 약 90%는 모델이 생각하는 출력이 아니라, 모델에게 보내는 입력 컨텍스트에서 발생한다.
  • 전형적인 질의 한 번에 45,000 토큰을 보내지만 실제로 의미 있는 부분은 약 5,000 토큰뿐이었다.
  • 프롬프트를 짧게 쓰거나 모델 설정을 바꾸는 것으로는 비용이 줄지 않는다. 비용은 이미 입력에서 발생하기 때문이다.
  • 코드베이스와 AI 사이에 로컬 검색 계층을 두고 필요한 조각만 보내면 토큰을 최대 94%까지 줄일 수 있었다.
  • 정답은 더 좋은 모델이 아니라 '덜 보내는 것'이다. 모델 선택보다 무엇을 먹이느냐가 더 중요하다.

쉽게 이해하기

발표자는 친구와 함께 클로드 코드, 커서, 코파일럿 같은 AI 코딩 도구를 매일 쓰며 프로젝트를 만들던 중, 어느 달 갑자기 요금이 폭증하는 일을 겪었다. 같은 프로젝트, 같은 도구인데 비용만 커졌다. 원인을 파고들자 돈이 새는 곳은 '모델이 생각하는 비용'이 아니라 '쓸데없이 많이 보내는 컨텍스트'였다.

거의 모든 AI 코딩 도구는 코드를 컨텍스트로 모델에 보내며, '컨텍스트는 많을수록 좋다'고 가정한다. 하지만 측정해 보니 한 번의 질의에 45,000 토큰을 보내면서 실제로 쓸모 있는 부분은 약 5,000 토큰뿐이었다. 나머지 4만 토큰은 매 질의마다 돈을 내고 버리는 셈이었다. 발표자는 이를 피자 한 판을 시키며 먹지도 않을 아홉 판 값을 매번 내는 것에 비유했다.

해결을 위해 세 가지를 시도했다. 프롬프트를 짧게 쓰는 방법은 모델이 이미 4만 5천 토큰을 읽은 뒤라 소용이 없었고, 최대 토큰·온도 같은 모델 설정은 출력만 바꿀 뿐 입력 비용에는 손대지 못했다. 출력 압축은 실제로 출력을 75% 줄였지만, 출력은 전체 비용의 10%에 불과해 절감 효과가 작았다.

핵심은 입력이었다. 비용의 90%가 입력에서 나오므로, 입력을 94% 줄이면 전체 비용의 약 61%를 아낄 수 있다. 그래서 코드베이스와 AI 사이에 로컬 검색 계층을 만들었다. 파일 전체 대신, AI가 실제로 필요한 작은 코드 조각만 검색해 돌려준다.

검증을 위해 오픈소스 프로젝트 FastAPI(파일 53개)에 개발자가 던질 법한 질문 20개를 테스트했다. 도구 없이는 질문당 약 83,000 토큰이 들었지만 도구를 쓰면 4,900 토큰으로 94% 줄었고, 추가 압축까지 더하면 523 토큰까지 내려갔다. 그러면서도 올바른 코드를 찾아내는 정확도는 90%를 유지했다.

주요 인사이트

  • 검색을 두 갈래로 동시에 돌린 것이 큰 절감의 비결이다. 의미 기반 검색은 관련 개념은 잘 찾지만 정확한 이름을 놓치고, 단어 기반 검색은 정확한 이름은 잘 찾지만 관련 개념을 놓친다. 각각 단독으로는 4건 중 1건을 놓치지만, 둘을 합치면 10건 중 1건으로 줄었다.
  • 관련성 판정은 복잡한 모델 대신 단순한 공식(의미 점수 50%, 키워드 점수 30%, 최근성 20%)으로 했다. AI 호출 없이 0.4밀리초면 끝나고, 임계값은 결과에 따라 자동 조정된다. '단순한 공식이 복잡한 모델을 이긴다'는 것이 핵심 교훈이다.
  • 발표자는 94%라는 수치가 매번 파일 전체를 읽는 최악의 경우 기준임을 솔직히 밝혔다. 실제 도구는 이미 더 영리하므로 현실 절감폭은 더 작다. 또 파일 하나가 한 가지 일만 하면 잘 작동하지만, 파일 396개의 거대한 혼합 코드베이스에서는 재현율이 거의 0으로 떨어졌다.
  • 여러 도구(클로드 코드, 커서, 코파일럿)는 매번 처음부터 시작해 같은 코드베이스를 다시 설명해야 한다. 하나의 공유 인덱스와 메모리를 두면 한 도구가 배운 것을 다음 세션의 다른 도구가 그대로 이어받는다.
  • 실제 프로젝트에서 247번의 질의로 1,240만 토큰, 약 186달러를 아꼈고 절감의 84%가 검색 계층에서 나왔다. 결국 모델은 비용의 30% 정도이고 나머지 70%는 무엇을 먹이느냐에 달려 있다.

자주 묻는 질문

AI 코딩 비용에서 입력과 출력 중 어느 쪽이 더 큰가?

비용의 약 90%가 입력(파일·검색 결과·보내는 컨텍스트)에서 발생하고, 모델이 작성해 돌려주는 출력은 약 10%에 불과하다. 그래서 출력을 75% 압축해도 전체 절감은 8% 안팎에 그친다.

프롬프트를 짧게 쓰면 비용이 줄어드나?

줄지 않는다. 모델은 프롬프트를 읽기 전에 이미 4만 5천 토큰가량의 컨텍스트를 받은 상태라 비용이 이미 발생했기 때문이다. 비용을 줄이려면 입력으로 들어가는 컨텍스트 자체를 줄여야 한다.

왜 검색을 두 종류로 동시에 돌리나?

의미 기반 검색은 정확한 함수 이름을 놓치고, 단어 기반 검색은 의미가 비슷한 관련 코드를 놓친다. 둘을 함께 쓰면 서로의 약점을 메워 누락이 4건 중 1건에서 10건 중 1건으로 줄어든다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식