AI VIDEO BRIEFING

RAG는 죽었나? 단발 벡터 검색에서 에이전틱 검색으로의 전환

터보퍼퍼의 쿠바 로굿이 'RAG는 죽었다'는 주장을 분석합니다. RAG의 진짜 의미, 에이전틱 검색의 부상, 커서와 클로드 코드 사례, 의미 검색의 성능 이득, 임베딩을 '캐시 연산'으로 보는 관점을 정리합니다.

출처: AI Engineer2026년 6월 9일AI 보조 요약

'RAG는 죽었다'는 진짜일까 — 단발 벡터 검색에서 에이전틱 검색으로 영상 대표 이미지

핵심 메시지

'RAG는 죽었다'는 말이 유행하지만, 검색량 데이터를 보면 관련 관심은 2025년 중반 이후 오히려 폭증했다.
RAG(검색 증강 생성)의 '검색'은 단순 벡터 검색만이 아니라 전문 검색(BM25), grep·정규식, 필터 등 여러 방식을 포함한다.
에이전틱 검색은 에이전트에게 도구를 주어 맥락을 점진적·반복적으로 찾고 추론하게 하는 것으로, 클로드 코드의 파일 grep 방식이 대표적이다.
커서(Cursor)는 코드베이스를 임베딩해 의미 기반 검색을 제공하며, 사내 벤치마크에서 평균 약 12.5~13.5%(컴포저 모델은 약 24%) 정답 정확도 향상을 보였다.
임베딩과 의미 검색은 일종의 '캐시 연산'으로, 매 세션 grep을 반복하는 방식보다 선(先)인덱싱 후 런타임 조회가 토큰·시간·비용을 크게 아낀다.

쉽게 이해하기

터보퍼퍼(Turbopuffer)의 디플로이드 엔지니어 쿠바 로굿은 'RAG는 죽었다'는 트위터발 담론을 정면으로 다룬다. 터보퍼퍼는 오브젝트 스토리지 위에 처음부터 새로 구축한 전문 검색·벡터 검색 데이터베이스다. 그는 2025년 말부터 'RAG는 죽었고 에이전틱 파일 검색만 있으면 된다'는 트윗이 쏟아졌지만, 정작 구글 검색량을 보면 2025년 중반 이후 관련 관심이 급증했다고 지적한다.

발표자는 먼저 용어를 정리한다. 많은 사람이 RAG를 '말뭉치를 임베딩해 벡터로 검색한 뒤 LLM에 넣는 단순 벡터 검색'으로 오해한다. 하지만 RAG를 '검색 증강 생성'으로 풀어 보면, 검색은 벡터 검색뿐 아니라 BM25 같은 전문 검색, grep·glob·정규식, 기본 필터까지 아우른다. 에이전틱 검색 역시 단순한 파일시스템 grep으로 좁게 이해되곤 하지만, 본질은 에이전트에게 도구 묶음을 주어 필요한 맥락을 점진적·반복적으로 찾고 추론하게 하는 것이다. 클로드 코드처럼 파일을 grep하고 읽은 뒤 부족하면 다시 찾는 과정을 만족할 때까지 반복하는 방식이 그 예다.

구체적 사례로 커서(Cursor)가 등장한다. 터보퍼퍼의 초기 고객이기도 한 커서는 새 코드베이스나 브랜치를 열면 코드를 청크로 나눠 임베딩하고 의미 기반 검색을 가능하게 한다. 인상적인 점은 100명 규모 팀이 대개 같은 코드베이스를 여는 상황에서, 머클 트리(암호화 해시 트리)로 코드베이스 간 유사도를 계산해 비슷하면 데이터를 복사하고 바뀐 파일만 다시 청크·임베딩한다는 것이다. 이렇게 매번 전체를 재처리하는 비용을 줄인다.

그 효과는 수치로 뒷받침된다. 커서의 사내 컨텍스트 벤치마크에서 의미 검색은 모델 평균 약 12.5~13.5%, 컴포저 모델에서는 약 24%의 정답 정확도 향상을 보였다. 온라인 A/B 테스트에서는 대형 코드베이스에서 약 2.6%의 코드 유지율 향상과 약 2.2%의 불만족 요청 감소가 나타났다. 수치가 작아 보이지만, 의미 검색이 모든 쿼리에 쓰이는 것은 아니기 때문이라는 설명이 덧붙는다. 반면 클로드 코드는 초기에 로컬 벡터 DB로 RAG를 시도했으나 잘 맞지 않아 사용하지 않게 됐다고 한다(보리스 체르니 인용).

발표자는 임베딩과 의미 검색을 '캐시 연산'으로 보는 관점을 제시한다. 클로드 코드식 세션별 탐색은 같은 질문이라도 매번 grep·읽기·평가를 반복해 토큰을 거듭 소모한다. 반면 커서식은 인덱싱이라는 일회성 선행 비용을 치르는 대신, 런타임에는 가벼운 도구로 정보를 조회해 토큰과 시간, 비용을 아낀다. 결론적으로 검색은 더 이상 벡터 DB를 한 번 호출하는 단발성 작업이 아니라, 필요한 것만 반복적으로 가져오는 과정으로 진화하고 있다. 그는 제프 딘의 말을 인용해 '한 번에 1조 토큰이 필요한 게 아니라, 알맞은 100만 토큰이 필요하다'며 단계적 검색의 중요성을 강조한다.

주요 인사이트

'RAG는 죽었다'는 구호는 RAG를 '단발 벡터 검색'으로 좁게 본 오해에서 비롯됐다. 실제로는 단발 검색에서 반복적·도구 기반 검색으로 옮겨가는 중이다.
검색(retrieval)은 벡터 검색만이 아니다. 전문 검색(BM25), grep·정규식, 필터 등을 함께 쓰는 하이브리드 검색이 진지한 에이전틱 검색의 기본이 되고 있다.
임베딩은 '캐시 연산'으로 볼 수 있다. 매 세션 grep을 반복하는 비용 대신, 일회성 인덱싱으로 런타임 조회를 싸게 만드는 트레이드오프다.
의미 검색은 측정 가능한 성능 이득을 준다. 커서 사례에서 정답 정확도가 모델 평균 약 12.5~13.5%, 컴포저 모델에서 약 24% 향상됐다.
맥락 창이 아무리 커져도 단계적 검색은 필요하다. 핵심은 '한 번에 1조'가 아니라 '알맞은 100만'을 골라내는 것이다.

자주 묻는 질문

발표자가 말하는 RAG의 '검색'은 무엇을 포함하나요?

벡터 검색뿐 아니라 BM25 같은 전문 검색, grep·glob·정규식, 기본 필터 등 다양한 검색 방식을 포함합니다. RAG를 단순 벡터 검색으로 보는 것은 오해라고 설명합니다.

커서의 의미 검색은 어떤 효과를 보였나요?

사내 컨텍스트 벤치마크에서 모델 평균 약 12.5~13.5%, 컴포저 모델에서는 약 24%의 정답 정확도 향상을 보였고, A/B 테스트에서는 대형 코드베이스 코드 유지율 약 2.6% 향상과 불만족 요청 약 2.2% 감소가 나타났습니다.

임베딩을 '캐시 연산'으로 본다는 말은 무슨 뜻인가요?

세션마다 grep과 읽기를 반복하면 같은 질문에도 토큰을 거듭 소모하지만, 일회성으로 코드베이스를 인덱싱해 두면 런타임에는 가벼운 조회로 정보를 얻어 토큰·시간·비용을 아낄 수 있다는 관점입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗