AI VIDEO BRIEFING

RAG 전략 11가지 완전정리 — 리랭킹·에이전틱·지식그래프·청킹까지

RAG를 최적화할 때 쓸 수 있는 11가지 전략(리랭킹, 에이전틱 RAG, 지식그래프, 문맥 검색, 청킹 등)의 원리와 장단점, 그리고 3~5개를 조합하는 실전 팁을 정리했습니다.

RAG 전략 11가지 총정리: 내 AI 에이전트에 맞는 검색 방식 고르는 법 영상 대표 이미지

핵심 메시지

  • RAG는 데이터 준비(청킹·임베딩·저장)와 질의 처리(질문 임베딩·벡터 검색·LLM 보강) 두 단계로 나뉜다.
  • 단일 전략보다 보통 3~5가지 전략을 조합할 때 가장 정확한 결과가 나온다.
  • 리랭킹은 많은 청크를 먼저 뽑은 뒤 전용 리랭커 모델로 진짜 관련된 것만 남겨 LLM이 압도되지 않게 한다.
  • 지식그래프·문맥 검색·문맥 인식 청킹은 정확도를 높이지만 LLM을 더 쓰므로 느리고 비용이 크다.
  • 처음이라면 리랭킹 + 에이전틱 RAG + 문맥 인식 청킹(docling 하이브리드 청킹) 조합부터 시작하길 권한다.

쉽게 이해하기

영상은 RAG(검색 증강 생성)를 최적화하려 할 때 마주치는 '전략이 너무 많다'는 혼란을 정리한다. RAG는 문서를 잘게 청킹해 임베딩하고 벡터 데이터베이스(또는 지식그래프)에 저장하는 데이터 준비 단계와, 사용자의 질문을 임베딩해 유사한 청크를 찾아 LLM에 추가 문맥으로 넘기는 질의 단계로 구성된다.

질의 단계 전략으로는 먼저 많은 청크를 뽑고 크로스 인코더 같은 리랭커로 관련 청크만 추리는 '리랭킹', 에이전트가 시맨틱 검색과 전체 문서 읽기를 스스로 선택하는 '에이전틱 RAG', 엔티티 관계를 저장한 그래프 DB를 결합하는 '지식그래프'가 소개된다. 지식그래프는 상호 연결된 데이터에 강하지만 LLM으로 엔티티를 추출하므로 느리고 비싸다.

이어 각 청크 앞에 문서 내 위치를 설명하는 텍스트를 붙이는 앤트로픽의 '문맥 검색', 질문을 LLM으로 더 구체화하는 '질의 확장', 여러 변형 질의를 병렬 검색하는 '멀티 쿼리 RAG'가 다뤄진다. 뒤의 둘은 검색마다 LLM 호출이 추가돼 느려진다는 트레이드오프가 있다.

데이터 준비 쪽 전략으로는 임베딩 모델로 문서의 자연스러운 경계를 찾아 나누는 '문맥 인식 청킹'(docling의 하이브리드 청킹), 청킹 전에 임베딩을 적용해 각 청크가 문서 전체 문맥을 유지하게 하는 복잡한 '레이트 청킹', 부모-자식 청크 관계를 메타데이터로 저장해 '작게 검색하고 크게 반환'하는 '계층적 RAG'가 나온다.

마지막으로 검색 결과를 LLM이 1~5점으로 채점해 낮으면 질의를 다듬어 재검색하는 '자기 반성 RAG', 법률·의료 등 도메인 데이터로 임베딩 모델을 미세조정해 5~10% 정확도를 올리는 '임베딩 미세조정'이 소개된다. 발표자는 3~5개 조합을 권하며, 시작점으로 리랭킹·에이전틱 RAG·문맥 인식 청킹을 추천한다.

주요 인사이트

  • 리랭킹은 대부분의 RAG 구현에서 저자가 가장 먼저 쓰는 전략으로, 두 번째 모델 비용은 크지 않으면서 관련성 높은 청크만 남겨 품질을 크게 끌어올린다.
  • 에이전틱 RAG와 계층적 RAG는 유연하지만 예측 가능성이 떨어지므로, 언제 어떤 방식으로 검색할지 명확한 지침이 있을 때 쓰는 게 좋다.
  • 지식그래프·문맥 검색·문맥 인식 청킹처럼 LLM을 데이터 준비에 쓰는 전략은 정확도 이득이 크지만 생성 속도와 비용이 함께 커진다는 점을 감안해야 한다.
  • 임베딩 미세조정은 예컨대 의미 유사성 대신 감성 기반 유사성이 필요한 경우처럼, 학습용 데이터가 충분한 특수 도메인에서 작은 모델도 큰 범용 모델을 능가하게 만든다.
  • 최적해는 대개 하나의 전략이 아니라 3~5개의 조합이며, Postgres와 PG Vector 조합이 저자의 기본 스택으로 제시된다.

자주 묻는 질문

RAG 전략은 몇 개를 조합하는 게 좋나요?

영상은 가장 정확한 결과를 위해 보통 3~5개의 전략을 조합할 것을 권합니다. 하나만 쓰기보다 여러 전략을 함께 적용할 때 성능이 좋아진다고 설명합니다.

처음 시작할 때 어떤 전략을 고르면 되나요?

발표자는 리랭킹, 에이전틱 RAG, 그리고 문맥 인식 청킹(특히 docling을 이용한 하이브리드 청킹) 세 가지부터 시작하라고 구체적으로 추천합니다.

리랭킹은 어떻게 동작하나요?

먼저 벡터 DB에서 많은 청크를 뽑은 뒤, 크로스 인코더 같은 전용 리랭커 모델로 질의에 실제로 관련된 청크만 골라 소수만 LLM에 넘깁니다. 이렇게 하면 더 많은 지식을 고려하면서도 LLM이 과다한 청크에 압도되지 않습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식