AI VIDEO BRIEFING

GraphRAG란? 벡터DB와 그래프DB의 차이와 하이브리드 검색 활용법

AWS가 설명하는 벡터 검색과 그래프 검색의 차이, 그리고 둘을 결합한 GraphRAG가 의미는 비슷하지 않지만 연결된 정보를 어떻게 찾아 맥락의 공백을 메우는지 정리했다.

벡터DB와 그래프DB, 그리고 둘을 합친 GraphRAG가 AI 에이전트에 필요한 이유 영상 대표 이미지

핵심 메시지

  • 벡터 검색은 의미가 비슷한 정보를 잘 찾지만, 의미는 다르되 관계로 연결된 정보는 놓치는 공백이 있다.
  • 그래프 데이터베이스는 정보가 어떻게 연결돼 있는지를 표현해, 다대다 연결이 많고 연결 관계를 알아야 답할 수 있는 질문에 적합하다.
  • 벡터와 그래프를 함께 쓰는 하이브리드 쿼리는 벡터 검색을 먼저 하거나 그래프 검색을 먼저 하는 두 방향 모두 가능하다.
  • GraphRAG는 벡터 유사도 검색으로 진입점을 찾고, 그래프 순회로 관련 있지만 비슷하지 않은 정보를 모아 LLM에 더 완전한 맥락을 제공한다.
  • 그래프는 사기 탐지나 추천처럼 보였지만, AI의 맥락 공학 문제를 풀어주는 범용 기술로 다시 주목받고 있다.

쉽게 이해하기

AWS의 “Databases for AI” 시리즈 첫 회에서 진행자 트레버 스파이어스와 넵튠 전문 솔루션스 아키텍트 멜리사는 벡터 데이터베이스와 그래프 데이터베이스의 차이, 그리고 둘을 언제 함께 써야 하는지를 다뤘다. 멜리사는 7년차 AWS 엔지니어로 그중 4년을 그래프 DB인 Amazon Neptune에 집중해 왔다.

벡터 검색은 질의와 “의미가 비슷한” 단어·구절·데이터 조각을 돌려주며, 기업 내부 문서 검색(엔터프라이즈 검색)이나 RAG의 출발점으로 흔히 쓰인다. 하지만 멜리사는 의미가 비슷하지는 않아도 관계로 이어진 정보가 답에 필요할 때 공백이 생긴다고 지적한다. 바로 이 지점에서 그래프 검색이 등장한다. 그래프는 친구의 친구로 이어지는 소셜 네트워크처럼, 부모-자식·인과·시간 순서·분류 체계 등 “비슷함”이 아닌 “연결”을 표현한다.

멜리사는 그래프가 잘 맞는 경우를 두 가지 기준으로 판단한다고 설명했다. 첫째, 다대다 연결이 많은 고도로 연결된 데이터셋인가. 둘째, 던지려는 질문이 “연결 관계를 알아야” 답할 수 있는가다. 단순히 사용자 정보를 조회하는 1홉 질의는 키-값 저장소로 충분하지만, 친구의 친구 추천이나 커뮤니티 클러스터링처럼 연결을 따라가야 하는 질의는 그래프가 필요하다. 사기·금융 범죄 조사처럼 로그인 이벤트와 거래가 의미상 비슷하지 않아도 연결을 통해 의심 패턴을 찾는 사례가 대표적이다.

둘을 함께 쓰는 방식은 두 갈래다. 하이브리드 쿼리는 벡터 검색으로 상위 K개 결과를 찾은 뒤 그래프 순회로 연결된 정보를 더 찾거나(온라인 쇼핑에서 전동 칫솔을 찾은 뒤 구강 위생 분류를 타고 물세정기 같은 보완 상품을 추천), 반대로 그래프로 후보를 넓힌 뒤 벡터 유사도로 걸러내는(친구의 친구 수천 명을 프로필 유사도로 정렬·필터) 방식이다. GraphRAG는 여기서 벡터 검색과 그래프 검색을 모두 포함해 LLM에 넘길 맥락의 검색 품질을 끌어올린다.

시연에서 두 사람은 “Example Corp”의 위젯 판매 전망을 묻는 예시를 들었다. 순수 벡터 RAG는 의미가 비슷한 청크만 모아 “판매 전망이 좋다”고 답하지만, 물류 회사가 쓰는 “터쿼이즈 운하”가 막혔다는 비슷하지 않은 정보를 놓친다. GraphRAG는 청크가 아니라 더 잘게 쪼갠 “진술(statement)”을 맥락 단위로 삼아, 운하 봉쇄처럼 연결됐지만 비슷하지 않은 정보까지 끌어와 “공급망 차질로 판매가 부정적일 수 있다”는 더 정확한 답을 낸다.

주요 인사이트

  • 벡터 검색과 그래프 검색의 비유: 벡터는 의미가 비슷한 문장을 벡터 공간에서 가깝게 두고, 그래프는 밀접하게 연결된 개체를 적은 홉(hop)으로 가깝게 둔다. “유사함”과 “연결됨”은 다른 축이다.
  • LLM이 틀린 답을 내는 것이 항상 환각은 아니다. 진행자는 벡터 RAG의 낙관적 오답을 “주어진 맥락 안에서 최선의 답”일 뿐인 맥락 공학(context engineering) 문제로 규정했다.
  • GraphRAG의 맥락 단위를 청크가 아닌 짧은 “진술”로 잡으면, 다섯 개 문서에 걸친 정보를 끌어오면서도 각 진술이 한 문장 수준이라 전체 토큰 양은 일반 벡터 검색과 비슷하게 유지된다.
  • GraphRAG 파이프라인은 기존 벡터 RAG와 데이터 소스·청킹·임베딩 단계를 상당 부분 공유하고, 그 위에 개체 추출·관계 추출·데이터 계보 같은 그래프 처리 층을 더한다. 이미 RAG를 구축한 조직은 구성요소와 역량을 재활용하기 쉽다.
  • Amazon Neptune은 완전관리형 그래프 서비스로 시작점으로 권장되며, Neptune Analytics는 벡터와 그래프를 같은 곳에 저장할 수 있다. 오픈소스로는 Neo4j가 자주 언급됐다.

자주 묻는 질문

벡터 검색만으로는 부족해 그래프가 필요한 경우는 언제인가?

답에 필요한 정보가 질의와 의미상 비슷하지는 않지만 관계로 연결돼 있을 때다. 예컨대 로그인 이벤트와 거래처럼 의미는 다르지만 연결을 통해 사기 패턴을 찾아야 하는 경우 그래프가 유용하다.

영상에서 정의한 GraphRAG는 무엇을 포함하나?

이 영상에서의 GraphRAG는 벡터 유사도 검색과 그래프 검색을 모두 포함한다. 벡터 검색으로 진입점을 찾고, 그래프 순회로 관련 있지만 비슷하지 않은 정보를 모아 LLM에 넘긴다.

GraphRAG에서 맥락 단위로 “진술(statement)”을 쓰면 토큰이 너무 많아지지 않나?

시연에 따르면 각 진술이 한 문장 정도로 짧기 때문에, 여러 문서에 걸친 정보를 끌어와도 전체 맥락 크기는 일반 벡터 검색과 비슷한 수준으로 유지된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#GraphRAG#벡터데이터베이스#그래프데이터베이스#AmazonNeptune#RAG