AI VIDEO BRIEFING

벡터 데이터베이스란? 임베딩과 유사도 검색, ChromaDB·Pinecone·Weaviate 입문

이미지·텍스트·오디오 같은 비정형 데이터를 임베딩 벡터로 바꿔 저장하고 유사도 검색으로 다루는 벡터 데이터베이스의 원리와, 대표 도구 ChromaDB·Pinecone·Weaviate를 정리했다.

출처: DSwithBappy2024년 1월 18일AI 보조 요약

Complete Tutorial on Vector Database - Learn ChromaDB, Pinecone & Weaviate | Generative AI 영상 대표 이미지

핵심 메시지

세상 데이터의 약 80~85%는 이미지·영상·텍스트·오디오 같은 비정형 데이터라, 관계형(전통) 데이터베이스로는 효율적으로 저장·검색하기 어렵다.
벡터 데이터베이스는 비정형 데이터를 임베딩 모델로 고차원 벡터(숫자 표현)로 바꿔 저장하는 데이터베이스다.
임베딩은 신경망이 데이터의 특징을 학습해 벡터로 표현한 것으로, 의미가 비슷한 항목은 벡터 공간에서 가까이 모인다(킹·퀸은 가깝고 원숭이는 멀리).
벡터 데이터베이스의 핵심 기능은 유사도 검색(similarity search)으로, 질의 벡터와 가까운 항목들을 되돌려 준다.
대표적인 벡터 데이터베이스로 ChromaDB·Pinecone·Weaviate가 있고, 파이썬과 LangChain으로 임베딩 생성부터 저장·검색까지 구현할 수 있다.

쉽게 이해하기

영상은 벡터 데이터베이스가 왜 필요한지부터 설명한다. 이미지를 관계형 데이터베이스에 넣으려면 동물·색·태그 같은 스키마를 사람이 일일이 라벨링해야 하는데, 비슷한 이미지를 찾는 질의에는 비효율적이고 확장하기 어렵다. 데이터의 대부분이 이런 비정형 형태라는 점이 문제의 핵심이다.

해결책으로 임베딩(embedding) 개념이 제시된다. 신경망 기반 임베딩 모델에 이미지·텍스트·오디오를 넣으면 그 데이터의 수치 표현인 벡터가 나온다. word2vec, 트랜스포머 기반 임베딩, 그리고 OpenAI·HuggingFace·Llama·Google PaLM 같은 대규모 언어모델 기반 임베딩을 쓸 수 있다.

임베딩의 직관은 킹·퀸·맨·우먼·몽키 예시로 설명된다. 성별·부·권력·무게 같은 특징(실제로는 역전파로 자동 학습된다)에 값을 매기면 각 단어가 벡터가 되고, 이를 공간에 찍으면 킹과 퀸은 가깝게, 원숭이는 멀리 떨어져 군집을 이룬다. 그래서 '프린세스' 같은 새 항목도 의미가 가까운 군집에 자연스럽게 위치한다.

이렇게 저장된 벡터에 대해 벡터 데이터베이스는 유사도 검색을 제공한다. 질의를 같은 임베딩 모델로 벡터화한 뒤, 벡터 간 거리를 계산해 가장 가까운 항목들을 돌려준다. 수동 라벨링 없이 의미 기반으로 비슷한 데이터를 찾을 수 있다는 점이 전통 데이터베이스와의 결정적 차이다.

마지막으로 실습 부분에서는 파이썬과 LangChain을 이용해 데이터를 벡터로 변환하고 ChromaDB·Pinecone·Weaviate에 저장한 뒤, 대규모 언어모델을 얹어 작업을 수행하는 엔드투엔드 흐름을 다룬다.

주요 인사이트

전통 데이터베이스가 비정형 데이터에 약한 이유는 분명하다. 이미지를 Base64로 저장할 수는 있어도, 그 문자열만으로는 '비슷한 강아지 사진'을 찾을 수 없어 결국 사람이 태그를 달아야 한다.
임베딩 모델이 만드는 특징은 사람이 정한 게 아니라 역전파로 손실을 줄이며 자동으로 찾아진다. 강의의 성별·부·권력 같은 특징은 어디까지나 직관을 돕기 위한 예시다.
벡터의 차원은 2차원 시각화 예시와 달리 실제로는 수백~수백만 차원에 이를 수 있으며, 의미적 유사성은 이 고차원 공간에서의 거리로 표현된다.
질의도 반드시 저장 때와 같은 임베딩 모델로 벡터화해야 유사도 비교가 의미를 가진다.
ChromaDB·Pinecone·Weaviate는 모두 임베딩 저장과 유사도 검색을 제공하며, LangChain이 임베딩 생성부터 저장·검색까지 연결하는 접착제 역할을 한다.

자주 묻는 질문

벡터 데이터베이스란 무엇인가?

단어·이미지 임베딩 같은 고차원 벡터를 저장하는 데이터베이스다. 비정형 데이터를 임베딩 모델로 숫자 벡터로 바꿔 저장하고, 유사도 검색으로 의미가 가까운 항목을 찾는다.

왜 MySQL 같은 전통 데이터베이스로는 부족한가?

이미지·영상·오디오 같은 비정형 데이터는 직접 저장하더라도 비슷한 항목을 찾기 어렵다. 관계형 데이터베이스에서 유사 항목을 찾으려면 사람이 스키마와 태그를 일일이 달아야 해 비효율적이고 확장성이 떨어진다.

임베딩에서 비슷한 것이 가까워진다는 게 무슨 뜻인가?

임베딩 모델이 데이터의 특징을 벡터로 표현하면, 의미가 비슷한 항목은 벡터 공간에서 거리가 가까워진다. 예컨대 킹과 퀸은 가깝게, 원숭이는 멀리 떨어져 군집을 형성한다.

영상에서 다루는 대표 벡터 데이터베이스와 실습 도구는?

ChromaDB, Pinecone, Weaviate를 다루며, 파이썬과 LangChain을 사용해 임베딩 생성부터 저장과 유사도 검색까지 엔드투엔드로 시연한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗