AI VIDEO BRIEFING

RAG 완전정복: 인덱싱·검색·쿼리변환·라우팅까지 검색증강생성 핵심 정리

랭체인 엔지니어가 가르치는 RAG(검색 증강 생성) 무료 강의 요약. 인덱싱·검색·생성의 기본부터 멀티쿼리, RAG 퓨전, 라우팅, 멀티표현 인덱싱, 라이브러리 기법까지 단계별로 정리했다.

출처: freeCodeCamp.org2024년 4월 17일AI 보조 요약

랭체인 엔지니어가 알려주는 RAG 완전 정복 — 검색 증강 생성의 전 과정 영상 대표 이미지

핵심 메시지

세상의 중요한 데이터 대부분은 비공개인데 LLM은 공개 데이터로 학습된다. RAG는 이 간극을 메우는 핵심 기술이다.
RAG의 기본은 인덱싱·검색·생성 세 단계로, 문서를 벡터로 변환해 질문과 가까운 문서를 찾아 LLM에 넘긴다.
쿼리 변환(멀티쿼리, RAG 퓨전, 분해, 스텝백, HyDE)은 질문을 다듬어 검색 적중률을 높이는 기법들이다.
라우팅과 쿼리 구성은 질문을 알맞은 데이터 소스로 보내고 자연어를 메타데이터 필터·SQL 같은 질의로 바꾼다.
멀티표현 인덱싱·RAPTOR·콜버트(ColBERT) 등 고급 인덱싱과, 답을 스스로 평가·재시도하는 '능동형 RAG'까지 다룬다.

쉽게 이해하기

랭체인 소속 소프트웨어 엔지니어 랜스 마틴이 진행하는 이 강의는 RAG(Retrieval Augmented Generation, 검색 증강 생성)를 처음부터 쌓아 올린다. 출발점은 분명한 동기다. 세상의 중요한 데이터 상당수는 개인·기업의 비공개 데이터인데, LLM은 공개 데이터로 학습된다. 컨텍스트 창이 수백만 토큰까지 커지면서, 모델이 본 적 없는 방대한 비공개 데이터를 외부에서 넣어주는 일이 점점 현실적이 되었고, 그 중심에 RAG가 있다.

RAG의 큰 흐름은 세 단계다. 인덱싱은 외부 문서를 잘게 쪼개 임베딩(고정 길이 벡터)으로 바꿔 저장하는 과정이고, 검색은 질문을 같은 방식으로 임베딩해 벡터 공간에서 가까운 이웃(KNN) 문서를 찾는 과정이다. 생성은 찾아낸 문서를 프롬프트의 컨텍스트에 채워 넣어 LLM이 근거 있는 답을 내도록 하는 과정이다. 강의는 이 기본 파이프라인을 코드로 직접 보여준 뒤, 한계를 보완하는 고급 기법으로 확장한다.

첫 번째 확장은 '쿼리 변환'이다. 사용자의 질문이 모호하거나 잘못 쓰이면 의미 유사도 검색이 엉뚱한 문서를 가져온다. 이를 막기 위해 같은 질문을 여러 관점으로 다시 쓰는 멀티쿼리, 거기에 상호순위융합(RRF)으로 순위를 매기는 RAG 퓨전, 질문을 하위 문제로 쪼개 순차적으로 푸는 분해(decomposition), 더 추상적인 상위 질문을 만드는 스텝백, 가상의 답변 문서를 만들어 검색에 쓰는 HyDE 등을 소개한다.

두 번째는 '라우팅'과 '쿼리 구성'이다. 라우팅은 질문을 벡터 스토어·관계형 DB·그래프 DB 중 알맞은 곳으로 보내는 일로, LLM의 함수 호출로 데이터 소스를 분류하는 논리적 라우팅과 임베딩 유사도로 프롬프트를 고르는 의미적 라우팅이 있다. 쿼리 구성은 자연어를 각 소스의 질의 언어(벡터 스토어의 메타데이터 필터, 관계형 DB의 SQL, 그래프 DB의 사이퍼)로 변환하는 단계다.

마지막은 고급 인덱싱과 검색 기법이다. 요약본으로 검색하되 원문 전체를 생성에 넘기는 멀티표현 인덱싱, 문서를 군집화·요약해 계층 트리를 만드는 RAPTOR, 문서를 토큰 단위로 임베딩해 정밀하게 매칭하는 콜버트(ColBERT)를 다룬다. 나아가 검색·생성 결과를 관련성과 사실성(환각 여부)으로 채점하고, 실패하면 재검색·재작성·재생성하는 '능동형 RAG'까지 이어진다.

주요 인사이트

컨텍스트 창이 커진 것은 RAG를 대체하는 게 아니라 오히려 RAG를 더 강력하게 만든다. 요약본으로 찾고 원문 전체를 그대로 넘기는 멀티표현 인덱싱이 대표적이다.
쿼리 변환의 핵심 직관은 '질문을 어떻게 쓰느냐가 검색 성패를 좌우한다'는 것이다. 같은 질문을 여러 관점으로 분산시키는 산탄총식 접근이 검색 신뢰도를 높인다.
라우팅과 쿼리 구성은 결국 LLM의 함수 호출(구조화 출력)을 활용해, 자연어를 정해진 스키마의 구조화된 객체로 바꾸는 동일한 패턴을 공유한다.
RAPTOR는 검색의 K 한계를 우회한다. 문서를 계층적으로 요약해 상위·하위 추상화 수준을 모두 인덱싱하므로, 폭넓은 종합이 필요한 상위 질문에도 대응한다.
콜버트는 문서를 하나의 벡터로 압축하는 손실을 토큰 단위 임베딩과 최대유사도 합산으로 보완하지만, 지연 시간(레이턴시)이 실서비스 적용의 관건이다.

자주 묻는 질문

RAG가 왜 필요한가?

LLM은 공개 데이터로 학습되지만 세상의 중요한 데이터 대부분은 개인·기업의 비공개 데이터다. RAG는 이 외부·비공개 데이터를 검색해 LLM에 넣어, 근거 있는 답을 만들도록 돕는다.

멀티쿼리와 RAG 퓨전은 어떻게 다른가?

둘 다 질문을 여러 관점으로 다시 써서 각각 검색한다는 점은 같다. 차이는 RAG 퓨전이 검색 결과에 상호순위융합(RRF)이라는 순위 재정렬 단계를 추가해 하나의 통합 순위 목록을 만든다는 점이다.

멀티표현 인덱싱의 아이디어는 무엇인가?

검색에 쓰는 단위와 생성에 쓰는 단위를 분리한다. 문서의 요약본을 임베딩해 벡터 스토어에서 검색하되, 실제로는 별도 문서 저장소의 원문 전체를 LLM에 넘겨 답을 생성한다.

'능동형(active) RAG'란?

검색하거나 생성한 결과를 관련성·사실성 기준으로 채점하고, 기준을 통과하지 못하면 재검색하거나 질문을 다시 쓰고 답을 재생성하는, 피드백 루프가 있는 RAG 방식이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗