AI VIDEO BRIEFING

RAG 완벽 정리: 검색증강생성 작동 원리와 최신 메타

환각으로 실무에 쓰기 어려운 LLM을, 외부 문서를 검색해 보강하는 RAG로 실용화하는 원리를 정리한다. 인덱싱·검색·생성 3단계부터 그래프 RAG·리랭킹 등 최신 기법까지 다룬다.

출처: bycloud2024년 8월 24일AI 보조 요약

RAG가 AI 챗봇을 '실용적'으로 바꾸는 방법, 그리고 그 한계 영상 대표 이미지

핵심 메시지

현재의 AI 챗봇은 똑똑하지만 환각 때문에 실무에서 일관되게 쓰기 어렵고, RAG는 더 강력한 모델을 기다리지 않고 지금의 챗봇을 실용화하는 단기 우회책이다.
RAG는 정보를 신경망에 압축해 넣는 대신 별도로 저장된 비압축 문서에서 정확한 정보를 검색해 가져오므로, 비싼 학습·파인튜닝 없이 비용 효율적이고 정확한 결과를 낸다.
기본(naive) RAG는 인덱싱·검색·생성의 세 단계로 나뉘며, 문서를 의미 단위 청크로 나눠 벡터로 저장하고, 쿼리와의 의미적 유사도를 측정해 가장 관련 있는 정보를 찾아 LLM에 넘긴다.
구성 요소가 많은 만큼 인덱싱·검색·블렌딩 각각이 품질을 좌우하는 단일 실패 지점이 될 수 있어 '해킹적' 단기 해법으로 불린다.
최신 메타는 그래프 RAG, 파인튜닝 임베딩 모델, 쿼리 재작성, 하이브리드 검색, 리랭킹·오토컷 등으로 진화하며 정확도와 추적 가능성을 높이고 있다.

쉽게 이해하기

영상은 현재 AI 챗봇이 무엇이든 잘하지만 '실용성'만은 부족하다는 문제의식에서 출발한다. 가장 황당한 내용을 환각하기 때문에 업무에서 일관되게 활용하기 어렵다. 거대 기업이 더 강력한 AI를 학습시킬 때까지 기다릴 인내심이 없으니, 지금 가진 챗봇을 활용할 방법이 필요하다. 그 단기 우회책이 검색증강생성(RAG, retrieval augmented generation)이다.

RAG가 성능을 크게 끌어올리는 이유는 정보를 신경망에 압축해 저장하는 대신, 별도로 보관된 비압축 문서 모음에서 정확한 정보를 검색해 가져오기 때문이다. 모델이 학습하지 않은 자료도 참조할 수 있고, 수만 달러가 드는 학습이나 파인튜닝 없이 비용 효율적이고 정확한 결과를 낸다. 많은 챗봇의 웹 브라우징 기능도 RAG의 확장이며, 컨텍스트 윈도에 담기 어려운 대량 문서를 참조할 때 특히 알맞다.

기본 RAG는 인덱싱·검색·생성의 세 단계로 나뉜다. 인덱싱 단계에서는 문서를 의미 있는 청크로 나눠 검색하기 쉬운 벡터 형태로 벡터 데이터베이스에 저장한다. 검색 단계에서는 먼저 사용자 입력이 무엇을 묻는지 보고, 인코더 전용 트랜스포머인 BERT류 모델로 문서와 쿼리를 인코딩해 벡터 거리로 의미적 유사도를 측정한 뒤 가장 관련 있는 정보를 꺼낸다. 생성 단계에서는 LLM이 검색된 내용과 입력을 함께 활용해, 참조 문서를 따르면서도 질문에 답하는 일관된 응답을 만든다.

구성 요소가 많다는 것은 곧 단일 실패 지점이 많다는 뜻이다. 인덱싱 방식, 검색 방식, 모델이 결과를 섞고 제시하는 능력이 모두 품질에 영향을 준다. 그래서 RAG는 LLM의 한계를 우회하려고 불안정한 변수를 더하는 '해킹적' 방식이며 단기 해법으로 불린다. 다만 그 응용 지향적 성격 덕분에 RAG는 그 자체로 하나의 연구 분야로 발전했다.

그래서 단순 파이프라인은 더 복잡한 형태로 진화했고, 현재의 '메타'는 데이터에 따라 무엇이 가장 잘 맞는지로 갈린다. 영상은 직접 RAG를 구축할 때 참고할 만한 도구로 라마인덱스(LlamaIndex)와 라마파스, 허깅페이스의 파인튜닝 임베딩 모델, Cohere의 RAG 최적화·리랭크·임베딩 모델, 그래프 RAG를 위한 마이크로소프트의 공식 깃허브, 그리고 파이프라인 평가용 RAGAS를 소개한다.

주요 인사이트

인덱싱 단계의 최신 기법으로는 LLM으로 정보를 더 잘 조직하고, 학습 가능한(파인튜닝된) 임베딩 모델을 쓰는 것이 있다. 예컨대 들여쓰기가 중요한 코드에서는 코딩에 파인튜닝된 임베딩 모델이 그 의미를 더 잘 살린다.
그래프 RAG는 LLM으로 문서에서 개체·관계·핵심 주장을 추출해 지식 그래프를 만들고 Leiden 기법으로 계층적 클러스터링을 한다. 벡터 DB보다 시각화·추적·감사가 쉬워 맥락상 무관한 답을 걸러낼 수 있다.
검색 단계에서는 인사·줄바꿈·문장 종료 토큰 등 불필요한 부분을 빼고 핵심만 남기는 쿼리 재작성 LLM이 쓰인다. 또 FAISS 최근접 이웃과 단어 빈도를 결합한 하이브리드 검색, 시의성 있는 정보를 위한 선택적 웹 검색·API 삽입도 가능하다.
생성 단계에서는 한 번이 아니라 상위 K개를 검색한 뒤 리랭킹 모델로 실제 가장 관련 있는 결과를 추려내고, 유사도 거리 격차에 따라 무관한 결과를 잘라내는 오토컷을 쓴다. 관련도 임계값을 두면 정보가 부족할 때 환각 대신 '모른다'고 답하도록 강제할 수 있다.
RAG가 '단기' 해법으로 불리는 이유는 본질적으로 LLM의 한계를 우회하려 불안정한 변수를 더하는 방식이기 때문이다. 더 나은 아키텍처 모델이 장기 해법이지만, 그 전까지 RAG는 응용 지향 연구 분야로 자리 잡았다.

자주 묻는 질문

RAG는 무엇이고 왜 효과적인가?

RAG(검색증강생성)는 정보를 신경망에 압축해 저장하는 대신, 별도로 보관된 비압축 문서에서 정확한 정보를 검색해 LLM에 제공하는 방식이다. 모델이 학습하지 않은 자료도 참조할 수 있고, 수만 달러가 드는 학습·파인튜닝 없이 비용 효율적이고 정확한 결과를 내기 때문에 챗봇의 실용성과 성능을 크게 높인다.

기본 RAG는 어떤 단계로 작동하나?

인덱싱·검색·생성의 세 단계다. 인덱싱에서 문서를 의미 단위 청크로 나눠 벡터로 저장하고, 검색에서 사용자 쿼리와의 의미적 유사도를 벡터 거리로 측정해 가장 관련 있는 정보를 꺼내며, 생성에서 LLM이 그 정보와 입력을 결합해 질문에 답하는 일관된 응답을 만든다.

왜 RAG를 '단기 해법'이라고 부르나?

구성 요소가 많아 인덱싱·검색·블렌딩 각각이 단일 실패 지점이 될 수 있고, 본질적으로 LLM의 한계를 우회하려 불안정한 변수를 더하는 '해킹적' 방식이기 때문이다. 더 나은 아키텍처 모델이 장기 해법이지만, 그 전까지 RAG가 실용적 우회책 역할을 한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗