AI VIDEO BRIEFING

스패너 하이브리드 검색: 풀텍스트·벡터·그래프를 SQL 하나로

구글 드라이브부터 우버까지 떠받치는 스패너의 검색 기능을 정리했다. 풀텍스트·벡터·그래프를 별도 시스템 없이 한 데이터베이스에서 결합해 AI 검색 스택을 SQL 한 줄로 구현하는 방법과, 비용을 크게 줄인 Attio 사례를 담았다.

데이터베이스 하나로 검색을 끝낸다: 구글 스패너의 하이브리드 검색으로 AI 컨텍스트 강화하기 영상 대표 이미지

핵심 메시지

  • 스패너는 구글 드라이브·Gmail·유튜브·포토는 물론 우버 같은 외부 서비스까지 떠받치는 데이터 플랫폼으로, 그 검색 기능을 클라우드 고객에게도 제공한다.
  • 풀텍스트(키워드)·벡터(의미)·그래프 검색을 별도 플랫폼 없이 같은 데이터로 운영해, ETL 파이프라인·데이터 복제·시차 문제를 없앤다.
  • 하이브리드 검색은 키워드와 벡터 결과를 RRF 같은 기법으로 융합해 '두 세계의 장점'을 취하며, 트랜잭션 일관성 덕에 쓰자마자 검색에 반영된다.
  • CRM 스타트업 Attio는 Algolia에서 스패너 검색으로 옮겨 연 16만 5천 달러를 절감하고, 갱신 시 50만 달러 이상이 들 비용을 피했다.
  • 그래프 RAG는 관계를 데이터에 직접 모델링해 벡터 검색만 쓰는 전통적 RAG보다 성능·정확도·재현율에서 더 나은 결과를 보였다.

쉽게 이해하기

발표자 제프는 청중 대부분이 이미 스패너 검색을 쓰고 있다고 말한다. 구글 드라이브·Gmail·유튜브·포토에서 검색하거나 오늘 아침 우버를 탔다면, 그 밑에서 동작한 것이 바로 스패너이기 때문이다. 스패너는 관계형 데이터베이스이면서 같은 데이터로 검색·그래프 워크로드까지 처리하는 멀티 모델 플랫폼으로, 무중단 운영·사실상 무한한 확장성·파이브 나인(99.999%) 가용성을 내세운다.

검색 워크로드의 전형적 사례로는 전자상거래 상품 검색, 의료의 환자·의료진 검색, 문서 내용 검색 같은 콘텐츠 관리, 그리고 이름·주소·전화번호를 찾는 고객 데이터베이스가 꼽힌다. 이들 대부분은 철자 오류를 허용하는 퍼지 검색이 필요하다. 전통적으로는 이런 검색을 위해 별도 플랫폼을 운영하며 데이터를 복제해야 했고, 이는 ETL 파이프라인·중복·검색 결과의 시차 같은 문제를 낳았다.

스패너 검색은 세 축으로 구성된다. 단어와 그 조합을 찾는 풀텍스트 검색(퍼지 검색·자동 언어 감지·동의어 치환 포함), 저장 데이터의 의미를 이해해 맥락으로 찾는 벡터 검색, 그리고 둘을 RRF(상호 순위 융합)로 병합하는 하이브리드 검색이다. 제프는 'space LEGO for 8 plus' 질의로 시연하며, 풀텍스트는 정확히 두 건만, 벡터는 더 많은 맥락적 결과를, 하이브리드는 둘을 합쳐 가장 품질 좋은 결과를 낸다고 보여준다.

Attio의 알렉산더는 실전 여정을 공유한다. 2021년 대형 AI 랩 고객이 몰고 온 데이터에 포스트그레스 쿼리 플래너가 터지면서 스패너로 옮겼고, 풀텍스트 검색은 Algolia를 쓰다가 대형 고객이 심각한 색인 지연을 겪자 스패너 풀텍스트·벡터로 통합했다. 그 결과 회계연도 26년에 16만 5천 달러를 절감했고 갱신 시 50만 달러를 넘겼을 비용을 피했다. 'cat'을 'kittens'까지 확장하는 enhanced search로 다국어 검색 품질이 크게 올랐고, ETL이 없어 쓰기 후 즉시 읽기 일관성을 얻었다. 현재 3억 5천만 건의 문서를 색인하며 월 20% 이상 늘고 있다.

엔지니어링 디렉터 기리시는 내부 동작을 설명한다. 스패너에서는 DDL만으로 텍스트 인덱스·벡터 인덱스·그래프를 정의하면 자동으로 색인을 만들고 백필하며 트랜잭션 일관성을 유지한다. n-그램 토크나이저로 퍼지 검색과 철자 변형을 처리하고, 구글 검색과 같은 기술로 질의를 확장하며, 벡터 검색은 KNN과 ANN을 모두 지원하되 구글 리서치의 SCAN 알고리즘으로 클러스터링한다. 오늘 발표에서는 맞춤 사전 정식 출시, 벡터 검색 지연 개선, 색인 생성 속도 향상이 공개됐다.

주요 인사이트

  • 검색을 위한 별도 시스템을 두는 전통적 구조의 진짜 비용은 인프라 요금만이 아니라, 데이터 복제·ETL·검색 결과의 시차가 만드는 운영 부담과 신선도 저하다.
  • Attio 사례는 검색 솔루션 교체가 단순 비용 절감을 넘어 갱신 시점의 비용 폭증을 회피하는 전략적 선택이 될 수 있음을 보여준다. 26년 16만 5천 달러 절감, 27년 50만 달러 회피가 그 수치다.
  • 트랜잭션 일관성은 에이전트 워크로드에서 특히 중요하다. 에이전트가 데이터를 바꾸자마자 다음 요청에서 그 변경이 검색·벡터 인덱스에 즉시 반영되는 '쓰기 후 읽기 일관성'이 보장되기 때문이다.
  • 벡터 검색의 확장 전략은 정밀도와 비용의 맞바꿈이다. 작은 코퍼스나 강한 필터에는 KNN이, 벡터가 주 검색 수단이 되는 대규모에는 클러스터 트리를 쓰는 ANN이 더 빠르고 저렴하다.
  • 그래프 RAG가 전통적 RAG를 능가한 이유는, 데이터의 관계를 ML 모델의 임베딩 이해에 맡기는 대신 지식 그래프로 직접 모델링해 그 병목을 우회하기 때문이다.

자주 묻는 질문

스패너의 하이브리드 검색이란 무엇인가?

키워드 기반 풀텍스트 검색과 의미 기반 벡터 검색을 함께 돌린 뒤 RRF(상호 순위 융합) 같은 기법으로 결과를 병합하는 방식이다. 정확한 일치와 맥락적 유사성을 모두 살려 '두 세계의 장점'을 취한다.

별도 검색 플랫폼 대신 스패너에서 검색하면 무엇이 좋은가?

데이터를 다른 시스템으로 복제할 필요가 없어 ETL 파이프라인·중복·검색 결과의 시차 문제가 사라진다. 운영 부담을 줄이고 데이터를 한곳에 둔 채 트랜잭션·검색·그래프를 모두 처리할 수 있다.

Attio는 스패너 검색으로 얼마나 절감했나?

기존 Algolia 대비 검색 비용이 한 자릿수 배 저렴해져, 회계연도 26년에 16만 5천 달러를 절감했고 27년 갱신 시 50만 달러를 넘겼을 비용을 피했다. 색인 지연도 사라져 즉시 검색 결과를 얻게 됐다.

그래프 RAG는 전통적 RAG와 어떻게 다른가?

전통적 RAG는 ML 모델의 임베딩이 데이터 관계를 이해하는 데 의존한다. 그래프 RAG는 관계를 지식 그래프로 직접 모델링한 뒤, 벡터 검색으로 출발점을 찾고 그 관계를 따라 맥락을 확장한다. 여러 고객 사례에서 성능·정확도·재현율이 더 높았다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#스패너#하이브리드검색#벡터검색#그래프RAG#구글클라우드