AI VIDEO BRIEFING

AI 추론 경제학과 맞춤형 모델 — 베이스텐 CEO 스탠퍼드 강연 정리

스탠퍼드 강연에서 베이스텐 공동창업자 투힌이 AI 추론 비용 구조, 오픈소스 맞춤형 모델의 가치, GPU 부족과 컴퓨트 확보 전략을 설명했다.

출처: Stanford Online2026년 6월 5일AI 보조 요약

추론이 10억 배 늘어난다: 베이스텐 CEO가 본 AI 인프라 경제학 영상 대표 이미지

핵심 메시지

AI 추론 수요는 천 배·백만 배가 아니라 10억 배 늘어날 것이며, 추론은 AI가 만들어내는 가치의 원가(코그스)에 해당한다는 진단이 제시됐다.
현재 추론 지출의 약 90~95%는 프런티어 모델에, 5% 정도만 맞춤형·오픈소스 모델에 쓰이지만, 앱 기업이 흑자 구조를 만들려면 자체 모델로 옮겨가야 한다.
오픈소스 모델은 폐쇄형보다 약 90일 뒤처지지만 70~90% 더 저렴하며, 기업이 자기만의 데이터와 워크플로를 지키려면 '지능을 직접 소유'해야 한다는 논리가 강조됐다.
최고 수준의 오픈소스 모델이 중국(문샷·알리바바·미니맥스)에서 나오고 있어, 미국에도 좋은 오픈소스가 필요하다는 점이 국가 안보 차원의 문제로 제기됐다.
GPU 부족은 알려진 것보다 10배 심각하며, 베이스텐은 18~20개 클라우드의 GPU를 묶어 하루 약 30조 토큰을 처리하고, 향후 직접 소유로 전환해 컴퓨트 확보를 노린다.

쉽게 이해하기

스탠퍼드의 'AI 슈퍼사이클 경제학' 수업에 베이스텐(Baseten)의 공동창업자 겸 CEO 투힌이 초청됐다. 진행자는 추론 수요가 천 배나 백만 배가 아니라 10억 배 늘어날 것이라며 그를 소개했다. 시드니 출신인 투힌은 금융권에서 일하다 머신러닝 연구로 방향을 틀었고, 2015년 창업 실패를 거쳐 2019년 두 공동창업자와 함께 머신러닝 인프라 사업을 시작했다고 회고했다.

베이스텐은 위스퍼플로, 어브리지(Abridge), 커서 같은 빠르게 성장하는 AI 기업들의 추론을 맡고 있다. 위스퍼플로의 음성-텍스트 변환에는 여러 언어·오디오 모델이 쓰이고, 의료 기록 작성 도구인 어브리지는 약 20개 모델을 EMR과 깊게 통합해 돌린다. 투힌은 이들이 처음엔 AWS·GCP 같은 대형 클라우드나 코어위브·네비우스 같은 신생 AI 클라우드를 찾지만, 추론 스택을 직접 세우는 고통을 겪은 뒤 성능·신뢰성·멀티클라우드·개발자 플랫폼을 이유로 베이스텐을 택한다고 설명했다.

그는 추론 지출의 90~95%가 프런티어 모델에, 5% 정도가 맞춤형·오픈소스 모델에 쓰인다고 봤다. 하지만 앱 기업이 제품-시장 적합성을 넘어 규모 있는 흑자 사업이 되려면 자체 모델이 중요하다고 강조했다. 오픈소스 모델은 폐쇄형보다 약 90일 뒤처지지만 70~90% 더 저렴하고, 후처리 학습(포스트 트레이닝)을 더하면 더 좋고 빠르고 싸게 만들 수 있다는 것이다.

투힌은 프런티어 랩에 계속 데이터를 넘기면 자신만의 워크플로가 결국 그들의 후처리 학습에 흡수된다며, 동인도회사에 빗대 경고했다. 기업이 자기만의 강점을 지키려면 '지능을 직접 소유'해야 하고, 베이스텐은 그 무장을 돕는 쪽이라고 했다. 후처리 학습 흐름은 고객이 최적화할 목표(효용 함수)를 정하고 데이터를 제공하면, 오픈소스 기반 모델을 골라 맞춤형 모델로 만들고 추론까지 연결하는 방식으로 설명됐다.

하드웨어 측면에서는 대부분이 엔비디아 GPU 위에서 돌아가며, 쿠다(CUDA) 생태계와 TRT-LLM·vLLM·SG랭 같은 도구의 힘이 크다고 했다. 다만 TPU나 새로운 칩들이 프리필과 디코드를 분리하는 등 이기종(헤테로지니어스) 구조로 가고 있다고 봤다. 베이스텐은 18~20개 클라우드의 GPU를 묶어 하루 약 30조 토큰을 처리하는데, 이는 OpenAI의 API나 제미나이보다 큰 규모라고 밝혔다. GPU 부족은 알려진 것보다 10배 심각하고 가격이 1년 새 두 배로 뛰는 사례도 있어, 앞으로는 직접 소유로 전환해 컴퓨트 접근성을 확보하겠다고 했다.

주요 인사이트

추론을 'AI 가치의 원가'로 보는 관점은, 모델 성능 경쟁만큼이나 누가 더 싸고 안정적으로 토큰을 서빙하느냐가 사업의 승부처임을 보여준다.
오픈소스가 폐쇄형보다 90일 뒤처지지만 70~90% 싸다는 점은, 규모가 커진 앱 기업일수록 맞춤형 모델로의 전환이 생존을 좌우하는 '존재론적' 선택이 됨을 의미한다.
'동인도회사' 비유는 데이터 주도권의 문제를 짚는다 — 프런티어 랩에 데이터를 넘길수록 자신의 해자가 학습돼 사라질 수 있어 '지능의 소유'가 방어 전략이 된다.
최고의 오픈소스 모델이 중국에서 나온다는 현실은 단순한 기술 경쟁을 넘어, 지능의 비용이 동쪽에서 훨씬 싸지는 상황을 국가 안보 문제로 보게 만든다.
GPU 가격이 시간당 2.63달러에서 5.10달러로 두 배 제시되고 리드타임이 12~15개월에 이르는 현실은, 컴퓨트 접근성 자체가 추론 사업의 전략적 우위임을 드러낸다.

자주 묻는 질문

추론 지출은 프런티어 모델과 오픈소스에 어떻게 나뉘나?

투힌은 현재 추론 지출의 약 90~95%가 프런티어 모델에, 5% 정도가 맞춤형·오픈소스(후처리 학습 포함) 모델에 쓰인다고 설명했다. 다만 앱 기업이 흑자 구조를 만들려면 자체 모델 비중을 늘려야 한다고 봤다.

왜 기업이 '지능을 직접 소유'해야 한다고 보나?

프런티어 랩에 계속 데이터와 사용자 신호를 넘기면, 자신만의 워크플로가 결국 그들의 후처리 학습에 흡수돼 해자가 사라질 수 있기 때문이다. 그는 이를 동인도회사에 빗대며, 오픈소스 모델을 후처리 학습해 자기 지능을 소유해야 방어가 된다고 했다.

베이스텐은 컴퓨트를 어떻게 확보하나?

18~20개 클라우드에 걸친 약 87개 클러스터에서 서로 다른 GPU를 묶어 하나로 추상화해 쓴다. GPU 확보가 매우 어렵기 때문에 가능한 모든 곳에서 모아 쓰며, 향후에는 직접 소유도 병행해 수요를 감당하려 한다.

GPU 부족은 얼마나 심각한가?

투힌은 사람들이 말하는 것보다 10배 심하다고 했다. 한 B200 클러스터의 시간당 단가가 2.63달러였는데 갱신 가격으로 5.10달러(두 배)가 제시됐고, 지금 GPU를 주문하면 내년 2분기, 즉 12~15개월 뒤를 이야기할 정도라고 했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗