AI VIDEO BRIEFING
RAG 검색 증강 생성이란? LLM 환각을 줄이는 작동 원리와 검색·증강·생성 3단계
챗봇이 존재하지 않는 답을 자신 있게 지어내는 환각 문제를, 관련 문서를 검색해 프롬프트에 덧붙이는 RAG가 어떻게 해결하는지 검색·증강·생성 단계로 정리했습니다.

핵심 메시지
쉽게 이해하기
발표자는 자신의 유튜브 채널용 영상 추천 챗봇을 만드는 상황을 예로 든다. 기성 ChatGPT에 'KDE를 이해할 영상을 추천해 달라'고 묻자 채널에 실제로는 없는 제목을 자신 있게 추천했다. 더 심각하게는 아직 만들지도 않은 RAG 주제 영상에 대해서도 그럴듯한 가짜 제목을 지어냈다.
이런 비-RAG 방식에는 세 가지 문제가 있다. 모델이 없는 사실을 지어내는 환각, 한 번 학습이 끝난 모델은 그 이후의 사건(새로 올라온 영상 등)을 알 수 없다는 점, 그리고 사용자가 그 답이 왜 나왔는지 알 수 없는 해석 가능성의 공백이다.
RAG의 핵심은 모델에게 '약간의 도움'을 주는 것이다. 질문과 맞는 채널 영상 제목 몇 개를 골라 프롬프트에 덧붙이자, 모델은 정확한 영상 제목을 답했고, 해당 영상이 없을 때는 '그런 영상은 없다'고 정확히 답했다.
전체 흐름은 검색·증강·생성 세 단계다. 문서 저장소는 무엇이든 될 수 있어, 영상 제목 목록은 물론 게임 리뷰 모음이나 대학 강의 카탈로그를 문장·문단 단위로 잘라 넣은 것도 가능하다. 새 콘텐츠가 생기면 저장소를 갱신한다.
검색 단계는 BERT 같은 사전학습 모델로 질의와 각 문서를 임베딩한 뒤 코사인 유사도로 순위를 매겨 상위 K개(예시는 K=3)를 고른다. 문서 임베딩은 한 번만 계산해 미리 인덱싱해 두면 되고, 저장소가 매우 크면 정확한 KNN 대신 근사 최근접 이웃(ANN)으로 속도를 높인다. 예시에서 정답이 2위에 오른 점은 모델 교체나 재순위 등 개선 여지를 보여준다.
주요 인사이트
- 환각은 모델이 '모른다'고 말하기보다 그럴듯한 답을 만들어내는 성향에서 비롯되며, 외부 근거를 함께 제공하면 이를 완화할 수 있다.
- 문서 임베딩을 미리 계산해 인덱싱해 두면 질의마다 전체를 다시 계산할 필요가 없어 효율적이다.
- 정답이 검색 상위에 있어도 1위가 아닐 수 있어, 임베딩 모델 교체나 재순위 같은 개선 단계가 필요하다.
- RAG는 모델을 재학습하지 않고 저장소만 갱신하면 최신성을 확보할 수 있다는 운영상의 장점이 있다.
자주 묻는 질문
RAG는 무엇의 약자인가요?
Retrieval Augmented Generation, 즉 검색 증강 생성의 약자로, 외부 문서를 검색해 LLM의 답 생성을 돕는 기법입니다.
검색 단계에서 관련 문서는 어떻게 찾나요?
질의와 각 문서를 BERT 같은 모델로 임베딩한 뒤 코사인 유사도로 가장 비슷한 상위 K개를 고릅니다. 영상에서는 K=3을 예로 들었습니다.
문서가 매우 많을 때 속도는 어떻게 높이나요?
정확한 K-최근접 이웃(KNN) 대신 근사 최근접 이웃(ANN)을 사용해 거의 비슷한 결과를 훨씬 빠르게 얻습니다.
RAG가 환각과 최신성 문제를 어떻게 줄이나요?
관련 근거 문서를 프롬프트에 덧붙이고 저장소를 새 정보로 갱신함으로써, 모델이 없는 사실을 지어내지 않고 최신 내용까지 반영하도록 돕습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗