AI VIDEO BRIEFING

RAG 완전 정복: 벡터 데이터베이스·청킹·평가 지표·에이전틱 RAG 기초

검색 증강 생성(RAG)이 LLM의 한계를 어떻게 보완하는지, 임베딩과 벡터 데이터베이스, 문서 청킹 전략, 검색 품질 평가 지표, 그리고 CAG·에이전틱 RAG 같은 최신 개념까지 입문자 눈높이로 정리했다.

출처: KodeKloud2025년 12월 24일AI 보조 요약

LLM의 지식을 확장하는 RAG, 임베딩부터 청킹·평가까지 한 번에 정리 영상 대표 이미지

핵심 메시지

RAG는 LLM이 학습 때 배운 내재 지식 밖의 외부 데이터를 검색해 답변에 활용하게 해주는 기술이다
문서는 임베딩 모델로 의미를 담은 벡터로 변환돼 벡터 데이터베이스에 저장되고, 의미 기반 검색으로 꺼내 쓴다
LLM의 컨텍스트 한계 때문에 문서를 청크로 쪼개야 하며, 고정 크기·의미 기반·오버랩·에이전틱 청킹 등 전략이 있다
RAG 시스템은 정밀도@K, 재현율@K, MRR, NDCG 같은 지표로 검색 품질을 측정해야 한다
CAG(캐시 증강), 에이전틱 RAG, 멀티쿼리·계층형·멀티모달 RAG 등 RAG는 빠르게 진화하고 있다

쉽게 이해하기

구글 검색이 우리 머릿속 지식을 외부 정보로 확장해 주듯, 대형 언어 모델(LLM)도 자신이 학습한 범위 밖의 지식이 필요하다. LLM은 사전 학습 단계에서 인터넷의 방대한 텍스트를 흡수해 내재적 지식을 쌓지만, 회사 내부 문서나 개인 데이터처럼 학습에 포함되지 않은 정보는 알지 못한다. 이 한계를 메우기 위해 2021년 초 등장한 개념이 검색 증강 생성, 즉 RAG(Retrieval Augmented Generation)다.

RAG의 핵심은 외부 데이터를 임베딩 모델로 '의미를 담은 벡터'로 바꿔 벡터 데이터베이스에 저장하는 것이다. 예를 들어 'John Wick is a great movie'라는 문장을 그대로 저장하지 않고 의미 벡터로 변환하면, 나중에 'great film'으로 검색해도 'movie'라는 단어가 없는데도 관련 기록을 찾아낼 수 있다. 텍스트가 아니라 의미로 검색하기 때문이다. Chroma·Pinecone 같은 벡터 DB와 OpenAI의 text-embedding-3-large 같은 임베딩 모델이 대표적으로 쓰인다.

흔한 오해 두 가지도 짚는다. RAG가 LLM에 장기 기억을 준다는 오해가 있지만, 검색된 데이터는 해당 대화 턴에서만 유지되는 일시적 정보다. 또 RAG가 관련 데이터를 전부 돌려준다는 것도 한계가 있다. RAG가 적합하지 않은 경우도 있는데, 이미지·차트·표를 모달리티 자체로 검색해야 하거나 문서의 물리적 위치·서식으로 찾아야 할 때는 의미 기반 검색인 RAG가 잘 맞지 않는다.

LLM은 한 번에 처리할 수 있는 컨텍스트 창이 제한적이라 문서를 통째로 넣을 수 없다. 그래서 문서를 청크 단위로 쪼개야 한다. 고정 크기 청킹은 글자·단어·토큰 수로 단순하게 자르지만 의미 단위를 무시한다. 의미 기반 청킹은 문맥이 바뀌는 지점에서 끊어 각 청크가 하나의 주제를 담게 한다. 오버랩(슬라이딩 윈도) 청킹은 청크 사이에 일부 내용을 겹쳐 문맥을 보존하고, 에이전틱 청킹은 AI가 직접 최적의 분할 지점을 판단한다.

RAG는 법률 사무소의 수백만 건 문서 검색이나 사내·고객용 챗봇 같은 실무에 큰 가치를 준다. 의존도가 높아질수록 평가가 중요해지는데, 검색 측면에서는 정밀도@K(상위 결과 중 관련 비율), 재현율@K(전체 관련 문서 중 찾은 비율), MRR(첫 관련 문서의 순위), NDCG(전체 순위 품질)를 활용한다. 나아가 캐시로 중복 질문을 줄이는 CAG, 목표 기반으로 여러 번 검색하는 에이전틱 RAG, 질문을 여러 변형으로 확장하는 멀티쿼리 RAG, 문서 계층을 보존하는 계층형 RAG, 이미지·차트까지 다루는 멀티모달 RAG 등이 떠오르고 있다.

주요 인사이트

벡터 검색의 본질은 '단어 일치'가 아니라 '의미 유사도'다. 그래서 동의어나 다른 표현으로 질문해도 관련 정보를 찾을 수 있다
청킹 전략에 정답은 없다. 대부분의 경우 오버랩을 더한 문장 단위 청킹이 균형이 좋고, 품질이 가장 중요한 고가치 문서에는 에이전틱 청킹이 유리하다
평가 지표는 목적에 따라 골라야 한다. 노이즈를 줄이려면 정밀도, 누락을 막으려면 재현율, Q&A에는 MRR, 검색엔진처럼 순서가 중요하면 NDCG가 적합하다
에이전틱 RAG는 화려해 보이지만 검색을 여러 번 수행해 느리기 때문에, 응답 지연을 감수하더라도 품질이 중요한 niche한 상황에 맞다
RAG는 LLM에 영구 기억을 부여하는 마법이 아니라, 사실과 데이터를 검색 가능한 조각으로 잘게 나눠 필요할 때 꺼내 쓰게 하는 공학적 설계다

자주 묻는 질문

RAG가 LLM에 장기 기억을 주는 것인가?

아니다. 검색된 데이터는 해당 대화 턴 동안만 유지되는 일시적(ephemeral) 정보다. 데이터베이스에 지식이 저장돼 있어 마치 기억하는 것처럼 보일 뿐, LLM 자체가 그 지식을 영구히 보유하는 것은 아니다.

문서를 통째로 벡터 데이터베이스에 넣고 한꺼번에 꺼내 쓰면 안 되나?

LLM의 컨텍스트 창이 제한적이라 큰 문서를 통째로 넣으면 한계를 초과한다. 또 문서에는 질문과 무관한 내용도 많아, 의미 단위로 청크를 나눠 필요한 부분만 검색해 넣는 편이 정확도 면에서도 더 낫다.

RAG가 잘 맞지 않는 경우는 언제인가?

이미지·차트·도표를 그 모달리티 자체로 검색해야 하거나, 문서의 특정 페이지·위치·서식으로 찾아야 할 때다. 기본 RAG는 텍스트의 의미를 기준으로 검색하기 때문에 이런 경우에는 비전 모델 등 다른 방식이 더 적합하다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗