AI VIDEO BRIEFING
임베딩과 벡터 데이터베이스란? 의미 기반 검색·HNSW·코사인 유사도 쉽게 이해하기
단어와 문장을 의미를 담은 좌표로 바꾸는 임베딩과, 수백만 벡터에서 비슷한 것을 빠르게 찾는 벡터 데이터베이스의 원리를 코사인 유사도·HNSW 색인·필터 검색 중심으로 풀어 설명합니다.

핵심 메시지
쉽게 이해하기
전통적인 데이터베이스는 '50달러 이하 빨간 신발'처럼 정확한 조건 매칭에는 뛰어나지만, '하루 종일 서 있어도 편한'이나 '구름처럼 보이는' 같은 의미는 행과 열로 표현하기 어렵다. 사람은 의미로 소통하기 때문에, 의미 자체를 수학적으로 담아내고 puppy와 dog가 글자를 공유하지 않아도 관련 있음을 컴퓨터가 알게 하는 방법이 필요했다. 그 답이 임베딩이다.
임베딩은 어떤 데이터든 숫자 목록, 즉 공간상의 좌표로 바꾼 것이다. 2차원 예시에서 king과 queen은 가깝고 banana는 멀리 떨어진다. 실제 모델은 1,500차원 정도를 쓰는데, 각 차원은 격식/일상, 긍정/부정, 질문/평서 같은 의미의 한 측면을 담는다. 이 차원들은 사람이 정의하지 않고 모델이 수십억 개의 예시에서 스스로 발견한다. 'king - man + woman = queen' 같은 의미의 산술이 성립한다는 점이 임베딩이 실제 의미 구조를 담고 있음을 보여 준다.
임베딩은 빈칸 채우기 같은 단순한 과제로 학습된 신경망에서 나온다. 모델이 수십억 문장에서 가려진 단어를 잘 예측하려면 단어들의 의미와 관계를 이해해야 하고, 그렇게 학습된 내부 상태를 추출한 것이 임베딩이다. 오늘날에는 직접 학습하기보다 API를 호출해 몇 줄로 텍스트를 좌표로 바꾼다.
이렇게 만든 수백만 개의 벡터를 전부 일일이 비교하면 100만 개의 1,536차원 벡터 기준 질의당 15억 번 넘는 계산이 든다. 벡터 데이터베이스는 지능형 색인으로 이 문제를 푼다. 대표적인 HNSW(Hierarchical Navigable Small World)는 '6단계 분리'처럼 적은 연결로도 멀리 닿는 작은 세계 구조를 계층으로 쌓는다. 상단 계층은 고속도로처럼 먼 거리를 단번에 건너뛰고, 하단 계층은 지역 도로처럼 정밀하게 이동한다. 가장 가까운 벡터를 가끔 놓칠 수 있는 근사 방식이지만, 검색·추천·RAG에는 충분히 좋은 이웃을 매우 빠르게 찾아 준다.
벡터 DB는 세 가지를 결합한다. 첫째 거리 척도로, 텍스트에는 벡터 사이 각도를 보는 코사인 유사도가 기본이고 이미지에는 직선 거리인 유클리드가 흔하다. 둘째 색인(HNSW)으로 성능을 끌어올린다. 셋째 유사도 검색과 메타데이터 필터를 한 번에 처리한다. 한 가지 주의점은 서로 다른 모델의 임베딩을 섞으면 안 된다는 것이다. 저장 데이터와 질의는 반드시 같은 모델로 변환해야 한다. 이 토대 위에서 시맨틱 검색, RAG, 추천, 그리고 CLIP처럼 이미지와 텍스트를 같은 공간에 넣는 멀티모달 검색이 가능해진다.
주요 인사이트
- 임베딩은 의미를 거리(기하)로 바꾼다. 비슷한 것은 가까운 점이 되어 검색 가능해진다.
- 1,500차원은 사람이 시각화할 수 없어도 수학은 동일하게 작동하며, 차원의 의미는 모델이 데이터 패턴에서 스스로 발견한다.
- HNSW는 작은 세계 구조와 계층을 이용해 수백만 번의 거리 계산을 수백 번으로 줄인다(근사이지만 충분히 정확하다).
- 서로 다른 모델에서 나온 임베딩을 비교하는 것은 섭씨와 화씨를 섞는 것처럼 무의미하다.
- 저장된 데이터와 질의는 반드시 같은 임베딩 모델로 변환해야 올바른 검색 결과를 얻는다.
자주 묻는 질문
임베딩이란 무엇인가요?
텍스트나 이미지 등을 의미를 담은 숫자 목록, 즉 공간상의 좌표(벡터)로 바꾼 것입니다. 비슷한 개념일수록 서로 가까운 점에 위치합니다.
벡터 데이터베이스는 왜 빠른가요?
모든 벡터와 일일이 비교하지 않고 HNSW 같은 색인으로 검색 공간을 좁히기 때문입니다. 수백만 번의 계산을 수백 번 수준으로 줄여 밀리초 단위로 답합니다.
코사인 유사도와 유클리드 거리는 어떻게 다른가요?
코사인 유사도는 두 벡터 사이의 각도를 측정하며 텍스트의 기본값입니다. 유클리드 거리는 두 점 사이의 직선 거리로 이미지에서 흔히 쓰입니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗