AI VIDEO BRIEFING
LLM 토큰이란? 토크나이저 작동 원리와 모델별 비용·토큰 수 차이까지 완전 정리
LLM을 쓰면서도 토큰을 잘 모르는 개발자를 위한 기초 해설이다. 토큰이 무엇이고, 텍스트가 어떻게 숫자로 변환되며, 왜 모델마다 토큰 수와 사용 비용이 달라지는지 토크나이저 작동 원리로 알기 쉽게 풀어본다.

핵심 메시지
쉽게 이해하기
발표자는 LLM을 활용하는 개발자가 늘었지만 정작 토큰 같은 기본 개념을 모르는 경우가 많다는 문제의식에서 출발한다. 그는 토큰을 'LLM의 화폐'로 정의하고, 입력 토큰과 출력 토큰 각각에 단가를 곱해 API 호출 비용이 계산되는 구조를 보여준다.
같은 'hello world'를 보내도 모델마다 토큰 수가 다르다. 예로 Anthropic 모델은 입력 11개·출력 20개로 세는 반면, 구글 Gemini는 입력 4개·출력 11개로 센다. 이 차이가 토큰을 모르면 풀리지 않는 '미스터리'처럼 보인다고 설명한다.
토큰의 실체는 어휘집에 담긴 단어·서브워드·문자 각각에 부여된 번호다. 인코딩은 텍스트를 어휘집의 가장 큰 단위로 쪼개 숫자로 바꾸는 과정이고, 디코딩은 그 숫자를 다시 텍스트로 이어 붙이는 과정이다. tiktoken 예시에서 약 2,300자 텍스트가 500개 미만의 토큰으로 변환되는 것을 보여준다.
토크나이저는 코퍼스에서 자주 함께 등장하는 문자 묶음을 서브워드로 학습한다. 문자 단위 토크나이저는 글자 수만큼 토큰이 생겨 비효율적이며, 서브워드를 도입하면 'understanding' 같은 단어를 더 적은 토큰으로 표현할 수 있다. 어휘집을 1천→5만→20만으로 키울수록 토큰 수는 줄어든다.
다만 어휘집을 무한정 키울 수는 없는데, 커질수록 모델과 메모리도 커지기 때문이다. 또 루이스 캐럴이 만든 'frabjous' 같은 드문 단어는 4개 토큰으로 잘게 쪼개지고, 데이터에 적게 등장한 언어나 비주류 프로그래밍 언어도 더 많은 토큰을 쓴다고 정리한다.
주요 인사이트
- 토큰 단가로 청구되는 구조를 이해하면 모델 선택과 비용 최적화에 곧바로 도움이 된다.
- 모델마다 토큰 수가 다른 것은 성능 차이가 아니라 토크나이저(어휘집) 설계의 차이일 뿐이다.
- 어휘집 크기는 성능과 비용의 트레이드오프이며, 모델 크기·메모리 제약 때문에 무한정 키울 수 없다.
- 데이터에 적게 등장한 언어는 토큰이 더 많이 쪼개지므로, 한국어 등으로 LLM을 쓸 때 같은 내용이라도 토큰 비용이 더 들 수 있다.
- 흔히 쓰는 프로그래밍 언어가 토큰 효율에서 유리하다는 점은 AI 시대의 숨은 이점이다.
자주 묻는 질문
왜 같은 문장인데 모델마다 토큰 수가 다른가?
모델마다 토큰 어휘집과 토크나이저가 다르기 때문이다. 같은 'hello world'도 어떤 모델은 입력 11개로, 다른 모델은 4개로 센다.
토큰 어휘집을 크게 만들면 무조건 좋은가?
같은 단어를 더 적은 토큰으로 표현해 처리 효율은 올라가지만, 어휘집이 커질수록 모델 크기와 메모리 사용이 늘어 무한정 키울 수는 없다.
한국어처럼 데이터에 적게 등장한 언어는 어떻게 되나?
익숙하지 않은 글자 조합이라 더 많은 토큰으로 쪼개지는 경향이 있어, 같은 내용이라도 토큰 비용이 더 들 수 있다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗