AI VIDEO BRIEFING
RAG 검색증강생성 완벽 이해: 프로즌 RAG부터 RAG 2.0까지
언어모델에 외부 검색기를 연결하는 RAG의 원리와 한계, 그리고 검색기·생성기를 함께 학습하는 RAG 2.0 방향까지 스탠퍼드 강의를 한국어로 정리했다.

핵심 메시지
쉽게 이해하기
이 강의는 Contextual AI의 CEO이자 스탠퍼드 겸임교수인 다우어 키엘라가 검색증강생성(RAG)을 주제로 진행했다. 그는 언어모델이 OpenAI의 발명품이라는 오해를 바로잡으며, 토큰 확률을 벡터화하는 이 아이디어가 이미 1991년 신경망 언어모델과 2003년 Bengio 논문에 등장했다고 설명한다. 다만 이를 거대한 신경망으로 키우면 강력한 창발적 성질이 나타난다는 점이 오늘날의 흥분을 만들었다.
언어모델은 강력하지만 기업 현장에서는 환각, 출처를 알 수 없는 답변(attribution), 학습 시점 이후 정보가 끊기는 노후화(staleness), GDPR에 따른 정보 삭제·수정의 어려움, 자체 데이터 맞춤화 같은 문제로 곧바로 도입하기 어렵다. RAG는 이를 풀기 위해 외부 메모리를 연결한다. 강연자는 모든 지식을 파라미터에 욱여넣는 ‘폐쇄형 시험’과, 책을 열어 참고하는 ‘개방형 시험’에 빗대어, 검색 컴포넌트를 더한 준파라메트릭 접근을 설명한다.
검색기는 단어 빈도를 세는 희소 방식 TF-IDF와 BM25에서 출발해, 동의어까지 의미적으로 찾는 밀집 방식(DPR·ORCA)으로 발전했다. 핵심은 최대 내적 검색(MIPS)을 근사 최근접 이웃(ANN)으로 빠르게 푸는 것이며, 그 바탕에는 페이스북의 FAISS 라이브러리가 있다. 이후 후기 상호작용 방식 ColBERT, 희소·밀집을 결합한 SPLADE, 강력한 범용 밀집 검색기 DRAGON이 나왔고, 실무에서는 희소·밀집을 합치는 하이브리드 검색이 표준이 되고 있다.
학습 관점에서 강연자는 아무것도 학습하지 않는 프로즌 RAG의 한계를 강조한다. REPLUG는 검색 문서별 perplexity로 KL 발산을 줄여 검색기를 개선하고, 언어모델을 고정한 채 리랭커만 역전파하는 방법도 있다. 2020년 RAG 논문은 생성기까지 함께 업데이트했고, FiD는 더 많은 문서를 다루며, kNN-LM과 RETRO는 큰 외부 인덱스로 25배 작은 모델이 더 좋은 성능을 내는 가능성을 보였다. REALM은 문서 인코더까지 갱신했는데, 매번 인덱스(사실상 인터넷 전체)를 다시 인코딩해야 해 매우 비싸다. Atlas는 이런 선택지들을 비교해 leave-one-out 손실이 특히 우수함을 보였다.
강연자는 언제 검색할지 모델이 스스로 정하는 능동 검색(FLARE), 검색 결과의 처음·끝만 보고 중간을 무시하는 ‘lost in the middle’ 현상, 검색을 여러 도구 중 하나로 보는 도구 증강과 에이전트, 안전한 데이터로 학습하고 테스트 때 위험한 인덱스를 붙이는 SILO, 이미지로 확장한 멀티모달(LENS)까지 폭넓게 짚는다. 결론은 검색기와 생성기를 분리된 모델이 아니라 하나의 시스템으로 보고 끝까지 최적화하는 ‘RAG 2.0’으로 가야 한다는 것이다.
주요 인사이트
- 긴 컨텍스트 윈도우로 RAG를 대체하려는 시도는 비효율적이며, 결국 어텐션을 희소화해 논파라메트릭 검색 문제로 수렴한다.
- ‘lost in the middle’: 프로즌 RAG는 검색 결과의 처음과 끝만 주목하고 중간은 무시해, 문맥 순서에 매우 취약하다.
- 환각은 단순한 ‘오답’과 다르며 근거(ground truth) 대비 불일치를 뜻한다. 지식을 인덱스로 분리하면 환각을 원천적으로 줄일 수 있다.
- 강연자는 전용 벡터DB의 장기 필요성에 의문을 제기한다. 리랭커와 BM25, Postgres 같은 기존 DB가 충분해 결국 일반 데이터베이스로 수렴할 것으로 본다.
- RAG는 작은 언어모델에 큰 인덱스를 결합해 비용과 품질의 균형을 맞추는 효율적인 방법이다.
자주 묻는 질문
RAG란 무엇인가?
생성기(언어모델)에 입력·프롬프트만 주는 대신, 검색기로 가져온 외부 문서를 컨텍스트로 추가해 답을 생성하는 구조다. 검색기는 보통 질의 인코더와 문서 인코더로 구성된다.
프로즌 RAG의 한계는 무엇인가?
검색기와 생성기가 학습 없이 분리되어 서로를 모른 채 동작한다. 강연자는 이를 프랑켄슈타인에 비유하며, 시스템을 끝까지 함께 학습한 RAG 2.0이 더 낫다고 본다.
검색은 언제 수행해야 하나?
매 토큰마다 검색하는 것은 비효율적이고 시작에 한 번만 하는 것은 부족하다. FLARE처럼 언어모델이 검색이 필요한 시점과 검색어를 스스로 학습해 정하는 능동 검색이 제안됐다.
문서 인코더를 업데이트하는 것이 왜 비싼가?
업데이트할 때마다 전체 인덱스(수조 토큰, 사실상 인터넷 전체)를 다시 인코딩해야 하기 때문이다. REALM은 이를 비동기 갱신과 샤딩으로 처리한다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗