AI VIDEO BRIEFING
벡터 임베딩과 토큰 쉽게 이해하기: LLM이 문장을 숫자로 바꾸는 원리와 토큰 비용까지
LLM은 문장을 토큰으로 쪼갠 뒤 벡터 임베딩이라는 숫자로 바꿔 이해한다. cat과 kitty를 같은 뜻으로 인식하는 원리부터 차원·토큰 비용·임베딩 API 사용법까지 기초 개념을 초보자 눈높이로 정리했다.

핵심 메시지
쉽게 이해하기
이 영상은 LLM의 기초인 임베딩과 토큰을 초보자 눈높이로 설명한다. 우리가 챗봇에 문장을 입력하면 모델이 바로 이해하는 것처럼 보이지만, 그 전에 문장은 토큰으로 쪼개지고 다시 임베딩이라는 숫자로 변환된다. AI는 결국 소프트웨어이기 때문에 문자가 아니라 숫자로만 계산할 수 있고, 이 숫자 표현이 모든 알고리즘의 입력이 된다.
임베딩이 중요한 이유는 단순 검색과 다르기 때문이다. 어떤 글에 'cat'이라는 단어가 한 번도 없고 'kitty'만 있다면, Ctrl+F 검색은 아무것도 찾지 못한다. 하지만 AI는 임베딩을 통해 kitty가 cat과 가까운 뜻임을 알아챈다. 그래서 임베딩은 의미 기반 검색, 비슷한 단어 묶기, 입력 자동완성 추천 등에 쓰인다.
원리는 단어마다 숫자를 부여하는 데서 출발한다. cat을 55, dog을 60, laptop을 5, computer를 8처럼 두면 값이 가까운 cat과 dog은 비슷하고 laptop과는 멀다고 볼 수 있다. 그러나 숫자 하나만으로는 혼동이 생기므로(예: grass가 우연히 computer와 가까워짐) x축·y축, 나아가 z축처럼 차원을 늘린다. 이렇게 그래프 위에서 방향을 갖기 때문에 이 값들을 벡터라 부른다.
차원은 모델마다 다르다. OpenAI의 text-embedding-3-small은 1536차원, large는 3072차원이며, 제미나이나 앤트로픽이 쓰는 일부 모델은 1024차원 수준이다. 차원이 크다고 반드시 더 좋은 것은 아니고 정확도와 비용의 절충이다. 또한 문장은 단어가 아니라 토큰 단위로 쪼개진다. '내 이름은 Naveen Reddy'처럼 흔한 단어는 한 토큰이지만 드문 이름은 여러 조각으로 나뉘고, 모델마다 같은 문장의 토큰 수가 달라진다.
토큰은 비용과도 직결된다. 'googling' 같은 신조어는 사전에 없어 'go'와 'gling'으로 쪼개지고, 이모지 하나가 4토큰을 차지하기도 한다. 토큰을 많이 쓸수록 요금이 늘어나며, 대략 1토큰은 단어의 4분의 3, 즉 100토큰이 약 75단어에 해당한다(모델마다 다른 평균값). 마지막으로 영상은 OpenAI 임베딩 API를 curl이나 Postman 같은 클라이언트로 호출하는 실습을 보여 준다. 콘텐츠 타입과 API 키를 헤더에 넣고 입력과 모델을 본문에 담아 POST 요청을 보내면 되며, 원하는 차원 수를 지정해 결과 크기를 줄일 수도 있다.
주요 인사이트
- 임베딩의 핵심은 '비슷한 의미는 가까운 위치'라는 발상이다. 그래서 철자가 아니라 뜻으로 검색하고 단어를 묶을 수 있다.
- 차원을 늘리는 이유는 숫자 하나로는 서로 다른 의미의 단어가 우연히 가까워지는 혼동을 막기 위해서다. 차원이 많을수록 표현이 풍부해진다.
- 같은 단어라도 문맥이 의미를 결정한다. 'Python'은 뱀일 수도 언어일 수도 있는데, 문장 속 맥락을 트랜스포머가 파악해 올바른 의미로 해석한다.
- 'king − man + woman = queen'처럼 벡터 연산으로 의미 관계를 계산할 수 있다는 점이 임베딩이 단순 숫자 부여 이상임을 보여 준다.
- 토큰은 곧 비용이다. 신조어나 이모지는 더 많은 토큰으로 쪼개지므로, 불필요한 토큰을 줄이면 API 사용 요금을 아낄 수 있다.
자주 묻는 질문
임베딩과 토큰은 어떻게 다른가요?
토큰은 문장을 처리 단위로 쪼갠 조각이고, 임베딩은 그 토큰을 의미를 담은 숫자(벡터)로 바꾼 결과입니다. 처리 순서는 문장을 토큰으로 나눈 뒤 각 토큰을 임베딩으로 변환하는 방식입니다.
왜 임베딩에 여러 차원이 필요한가요?
단어마다 숫자 하나만 주면 뜻이 전혀 다른 단어가 우연히 비슷한 값을 가질 수 있어 혼동이 생깁니다. x축·y축·z축처럼 차원을 늘리면 각 단어를 더 정교하게 배치할 수 있어 의미가 비슷한 것끼리 가깝게 모입니다.
토큰 수가 왜 비용과 관련이 있나요?
많은 모델이 처리한 토큰 수를 기준으로 요금을 매기기 때문입니다. 신조어는 여러 조각으로 쪼개지고 이모지 하나가 여러 토큰을 차지하기도 해서, 토큰을 많이 쓸수록 비용이 늘어납니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗