AI VIDEO BRIEFING

RAG 쉽게 이해하기 — 검색 증강 생성으로 LLM 환각을 줄이는 원리

컴퓨터파일이 설명하는 검색 증강 생성(RAG)의 원리. 질문에 실제 데이터를 결합해 LLM에 함께 읽히는 방식으로, 출처 제시와 환각 감소가 어떻게 가능한지 예제와 함께 정리했다.

출처: Computerphile2024년 9월 1일AI 보조 요약

LLM의 약점을 메우는 RAG: 검색으로 가져온 데이터를 함께 읽혀 정확도를 높인다 영상 대표 이미지

핵심 메시지

RAG(검색 증강 생성)는 사용자의 질문에 실제 데이터를 결합해 LLM이 둘을 동시에 보게 하는 단순한 아이디어다.
구글·빙 검색에서 뜨는 AI 요약이 바로 RAG의 사례로, 외부 출처를 끌어와 답을 만들고 출처까지 제시해 사용자가 직접 검증할 수 있다.
LLM은 없는 사실을 지어내는 것보다 주어진 텍스트를 다시 풀어쓰고 요약하는 데 강하다는 점이 RAG가 효과적인 이유다.
RAG는 환각을 완전히 없애지는 못하지만 줄여준다. 정보가 표 속에 묻혀 있거나 컨텍스트 창 한계를 넘으면 여전히 놓칠 수 있다.
랭체인·올라마 같은 라이브러리와 프롬프트 템플릿으로 비교적 간단하게 구현할 수 있으며, 학습 데이터에 없는 사내·특수 정보일수록 효과가 크다.

쉽게 이해하기

컴퓨터파일 영상은 거대 언어 모델(LLM)이 잘 못하는 영역, 즉 학습 데이터에 충분히 등장하지 않은 틈새 주제에서 어떻게 성능을 끌어올릴지를 다룬다. 해법으로 제시되는 것이 검색 증강 생성(RAG)이다. 핵심은 단순하다. 사용자의 질문(쿼리)에 실제 데이터를 결합해 LLM이 둘을 한꺼번에 보도록 하는 것이다.

진행자는 이미 일상에서 RAG를 보고 있다고 말한다. 구글이나 빙에서 무언가를 검색하면 AI가 그 주제를 설명해주는데, 이때 검색엔진은 관련 정보 출처를 가져와(retrieval) 답변 생성 과정에 더한다. 덕분에 '이것이 사실이다'라고만 말하는 대신, 실제로 읽은 웹사이트 출처를 함께 제시해 사용자가 직접 검증할 수 있다는 장점이 생긴다.

RAG가 효과적인 이유는 LLM의 특성과 맞닿아 있다. 모델은 아무것도 없는 상태에서 데이터를 지어내는 것보다, 이미 주어진 문단을 다시 풀어쓰거나 요약하는 일을 훨씬 잘한다. 그래서 위키백과 문서, 주가, 티켓 판매 정보, 회사 내부 FAQ 같은 데이터를 실시간으로 가져와 질문과 합친 뒤 모델에 넣으면 더 정확한 답을 얻을 수 있다. 사내 기술 지원처럼 사람에게 묻듯 자연스럽게 질문하고 답을 받는 경험도 가능해진다.

진행자는 RAG가 환각 문제를 어느 정도 줄여주지만 완전히 없애지는 못한다고 솔직하게 짚는다. 모델이 가져온 정보를 잘못 읽을 수도 있고, 필요한 정보가 표 속에 묻혀 있거나 컨텍스트 창(예: 라마 모델의 8,000토큰) 한계를 넘으면 찾지 못할 수도 있다. 어디까지나 '완전히 지어낼 가능성이 줄어든다'는 정도라는 것이다.

구현 과정도 시연한다. 랭체인으로 프롬프트 템플릿을 만들고, 위키백과의 본문 영역(HTML의 MW body content)에서 텍스트만 긁어와 정제한 뒤 컨텍스트로 넣는다. 모델은 메타가 공개한 라마 3 70B를 올라마로 로컬 실행한다. 베를린 올림피아 슈타디온 문서를 불러와 '아이들에게 신나게 설명해 달라'고 요청하자, 모델은 7만 4천 명 수용 규모 같은 정보를 위키백과에서 끌어와 활기찬 어조로 답을 만들어낸다.

주요 인사이트

RAG의 가장 큰 실용적 이점 중 하나는 출처 제시다. 답변과 함께 근거가 된 웹페이지를 보여주므로 사용자가 사실 여부를 스스로 확인할 수 있다.
LLM은 70억~수천억 개 매개변수로 일반 상식은 이미 많이 학습하고 있어, RAG의 진짜 가치는 흔하지 않거나 사용자 고유의 특수 데이터를 다룰 때 두드러진다.
데이터가 PDF·이미지처럼 다루기 까다로운 형식이면 텍스트를 추출·정제하는 별도 처리 단계가 필요하다. 위키백과는 비교적 추출이 쉬운 편이다.
프롬프트 템플릿에는 시스템 지시, 데이터(컨텍스트)가 들어갈 자리, 질문이 들어갈 자리를 둔다. 이 구조 덕에 라이브러리가 내용을 끼워 넣어 거대한 프롬프트를 완성한다.
빙처럼 대규모 서비스로 RAG를 돌리려면 모델을 미리 띄워 둔 많은 서버가 필요하다. 영상에서는 첫 실행에 약 30초, 이후에는 5~10초가 걸렸다.

자주 묻는 질문

RAG(검색 증강 생성)는 한마디로 무엇인가요?

사용자의 질문에 실제 데이터를 결합해 LLM이 둘을 동시에 보게 한 뒤 답을 생성하는 방식입니다. 모델의 가중치에 없는 정보를 외부에서 가져와(retrieval) 보강하므로 정확도를 높이고 출처도 제시할 수 있습니다.

RAG를 쓰면 환각(hallucination)이 완전히 사라지나요?

아닙니다. 진행자는 RAG가 환각을 줄여주긴 하지만 완전히 막지는 못한다고 설명합니다. 모델이 가져온 정보를 잘못 읽거나, 필요한 정보가 표 속에 묻혀 있거나 컨텍스트 창 한계를 넘으면 여전히 놓칠 수 있습니다.

영상에서는 RAG를 어떤 도구로 구현하나요?

프롬프트 템플릿과 인터페이스에는 랭체인을, 모델 실행에는 올라마를 사용합니다. 메타가 공개한 라마 3 70B 모델을 로컬에서 돌리며, 위키백과 본문을 긁어와 컨텍스트로 넣는 방식으로 시연합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗