AI VIDEO BRIEFING
RAG(검색 증강 생성)란? LLM 환각 줄이는 작동 원리와 벡터 검색 정리
대규모 언어 모델은 왜 틀린 답을 그럴듯하게 지어낼까. 검색 증강 생성(RAG)이 벡터 데이터베이스와 의미 검색으로 최신·정확한 맥락을 LLM에 더해 환각을 줄이는 원리를 단계별로 풀어 설명한다.

핵심 메시지
쉽게 이해하기
언어 모델은 1960년대 ELIZA처럼 하드코딩된 규칙에서 출발해, 1990년대 통계 기법과 2010년대 딥러닝을 거쳐 발전했다. 2017년 구글의 '어텐션이 전부다' 논문이 트랜스포머를 제시했고, 2018년 OpenAI가 첫 GPT를 내놓았다. 파라미터는 GPT의 1억 1,700만 개에서 GPT-2 15억, GPT-3 1,750억, 2023년 GPT-4는 약 1조 개로 기하급수적으로 늘었다.
LLM은 주어진 텍스트 다음에 올 단어의 확률을 계산해 가장 가능성 높은 단어를 고르는 방식으로 작동하며, 세계 지식을 파라미터 안에 담는다. 하지만 이렇게 생성만 하는 방식은 지식 집약적 응용에서는 한계가 있다.
그 한계가 바로 환각이다. 환각은 학습 데이터의 오류·편향이 반영되는 'garbage in, garbage out', 학습 패턴의 과잉 일반화, 학습 시점에 고정된 지식, 답의 출처를 추적할 수 없는 문제, 그리고 모호한 프롬프트로 인해 빈틈을 그럴듯하게 메우는 데서 비롯된다.
RAG는 이 문제를 검색으로 보완한다. 약어를 뒤에서부터 보면 생성(Generation)은 질의를 담은 프롬프트를 LLM에 보내 답을 받는 것이고, 검색(Retrieval)은 PDF·문서·사내 웹페이지 같은 비정형 데이터에서 관련 정보를 찾는 정보 검색의 과학이다. 증강(Augmentation)은 검색된 맥락을 프롬프트에 더하는 단계다.
검색은 흔히 벡터 데이터베이스로 구현한다. 텍스트를 의미 정보를 압축한 벡터 임베딩으로 바꿔 다차원 잠재 공간에 배치하면, 의미적으로 가까운 내용을 효율적으로 찾는 밀집 검색(의미 검색)이 가능해진다. 다만 회의록처럼 주제가 뒤섞인 긴 문서는 여러 주제 사이에 놓여 검색에서 누락될 수 있어, 문서를 청크로 나눠 개별 벡터화하고 출처를 가리키는 메타데이터를 함께 저장한다.
주요 인사이트
- 환각은 모델이 거짓말을 하려는 게 아니라, 학습된 통계적 언어 패턴의 빈틈을 그럴듯하게 메우면서 생긴다.
- LLM의 컨텍스트 윈도우는 고정 크기라 모든 문서를 통째로 넣을 수 없어, 청킹과 검색이 사실상 필수다.
- 주제가 드리프트하는 회의록 같은 문서는 벡터 공간에서 여러 주제 사이에 위치해 정작 답이 들어 있어도 검색에서 빠질 수 있다.
- 청크가 너무 작으면 답을 못 찾고 너무 크면 잡음이 섞인다 — 청크 크기 선택이 검색 품질을 좌우한다.
- RAG는 재작성기·검색기·라우터·재순위기·통합기·리더로 이어지는 파이프라인이며, 최신의 정제된 맥락을 LLM에 주입해 답의 신뢰도를 높인다.
자주 묻는 질문
RAG는 무엇의 약자인가요?
Retrieval-Augmented Generation, 즉 검색 증강 생성으로 2020년 페이스북 AI 리서치가 발표한 논문에서 비롯됐다. 사용자의 질의에 맞는 외부 문서를 검색해 그 맥락을 LLM 프롬프트에 더한 뒤 답을 생성하는 구조다.
왜 LLM만으로는 부족한가요?
LLM은 학습 시점 이후의 정보를 모르고, 답의 출처를 추적할 수 없으며, 학습 데이터의 오류·편향을 그대로 반영하거나 모호한 질문의 빈틈을 환각으로 메울 수 있기 때문이다.
벡터 데이터베이스는 어떤 역할을 하나요?
텍스트를 의미 정보를 압축한 벡터 임베딩으로 바꿔 저장하고, 질의와 의미적으로 가까운 내용을 효율적으로 찾는 밀집 검색(의미 검색)을 가능하게 한다.
RAG의 질의는 어떤 단계로 처리되나요?
재작성기가 질의를 다듬고, 검색기가 관련 문서를 가져오며, 재순위기가 관련성을 다시 평가하고, 통합기가 핵심을 요약·정리한 뒤, 리더가 LLM에 최종 프롬프트를 보내 답을 만든다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗