AI VIDEO BRIEFING

온디바이스 소형 언어모델(SLM)로 프론티어 모델 비용 줄이기

모든 작업에 거대 모델을 쓰는 '한 사이즈로 다 맞추기'의 비용을 짚고, 작업에 맞는 소형·특화 모델을 골라 온디바이스로 돌리는 '크게 프로토타입, 작게 배포' 전략과 평가 방법을 정리했다.

출처: AI Engineer2026년 6월 29일AI 보조 요약

프론티어 모델 요금을 멈추는 법 — 온디바이스 소형 모델로 갈아타기 영상 대표 이미지

핵심 메시지

거대 클라우드 모델은 보안·지연·비용·오프라인 불가 등 숨은 비용을 동반하며, 토큰 단가는 내려가도 추론 총지출은 오히려 늘고 있다.
먼저 '이 작업에 정말 LLM이 필요한가'를 물어야 한다. 비전·음성·요약 등은 MobileNet·YOLO·Whisper·Gemma·Qwen 같은 작업 특화/소형 모델로 충분한 경우가 많다.
소형 언어모델(SLM)은 양자화로 작아져 기기에 올릴 수 있고, 에너지도 LLM의 약 25% 수준이라 엔비디아가 '에이전틱 AI의 미래'로 부를 만큼 실전 준비가 되어 있다.
'크게 프로토타입, 작게 배포' — 큰 모델로 가능성을 증명한 뒤, 골든 데이터셋과 성공 기준을 정하고 작은 모델부터 키워가며 '충분히 좋은 가장 작은 모델(SAGE)'을 고른다.
프롬프트 엔지니어링(특히 퓨샷)과 후처리로 작은 모델과 거대 모델의 성능 격차를 메울 수 있으며, 회귀 평가를 CI/CD처럼 상시 돌려 품질 저하를 막아야 한다.

쉽게 이해하기

발표자 레이철 리 네이버스는 GPT-5나 Claude 같은 파운데이션 모델을 매번 호출하는 것이 사용자·기업·환경 모두에 비용을 치르게 한다고 말한다. 원격 거대 모델은 데이터를 외부 서버로 보내 유출·가로채기·보관 위험을 안고, VR 환경 연구 기준 응답 지연 4초가 '믿음의 한계'인데 거대 모델 호출은 종종 이를 넘긴다.

비용 문제도 크다. 제3자 추론 비용은 통제하기 어렵고, 에이전트가 추론을 거듭하며 토큰을 빠르게 소비한다. 네트워크가 끊기면 원격 모델은 아예 작동하지 않아 생산성이 멈춘다. 그는 최근 토큰 단가는 떨어졌지만, 추론 워크로드가 가격 하락보다 빠르게 토큰을 소모해 총 추론 지출은 오히려 오르고 있다고 지적한다.

핵심 질문은 '이 일에 정말 LLM이 필요한가'다. 카메라 입력이라면 MobileNet·YOLO·MediaPipe, 마이크 입력이라면 Whisper·Wav2Vec2, 채팅·번역·분석이라면 Gemma·Qwen 같은 소형 언어모델(SLM)로 충분한 경우가 많다. 대부분의 작업(스레드 요약, 무례한 표현 감지 등)은 인류 지식 전체나 멀티모달 능력을 필요로 하지 않는다.

SLM은 수백만~수십억 파라미터로, 수십억~수조 파라미터의 LLM보다 훨씬 작다. 양자화(8비트·4비트)로 디스크·메모리를 4분의 1로 줄일 수 있고 10억 파라미터가 FP16에서 약 2GB에 들어간다. 충분히 가벼워 기기에 탑재할 수 있으며, 그의 픽셀 10 프로에도 온디바이스 모델이 기본 탑재되어 있다.

SLM은 이미 실전 단계다. 엔비디아는 2025년 논문에서 SLM이 에이전틱 작업을 감당할 만큼 충분히 강력하다며 '에이전틱 AI의 미래'라고 평가했다. 에너지 측면에서도 SLM은 LLM의 약 25%, 작업 특화 모델은 그 절반 수준만 쓴다. 더 안전하고, 오프라인에서 작동하며, 요금이 없고, 온디바이스라 왕복이 없어 지연도 낮다.

그는 자신이 만든 소셜 클라이언트 '미마(Mima)'의 긴 스레드 요약 기능을 사례로 든다. 먼저 Claude로 프로토타입해 품질을 증명했고, 구글과 함께 만든 프레임워크의 원칙은 '크게 프로토타입, 작게 배포(prototype big, deploy small)'다. 큰 모델로 가능성을 확인한 뒤 운영용으로는 부분을 소형·특화 모델로 바꾼다는 것이다.

올바른 모델 선택은 네 단계다. (1) 가장 강력한 모델로 그 일이 가능한지부터 증명한다. (2) 입력-출력 쌍의 골든 데이터셋과 성공 기준을 정한다. 그는 14개 스레드를 짧은 요약과 참조 포함 요약 두 형태로 만들어 28개 예시를 두고, JSON 유효성·참조 구조 유효성·사실 일관성(LLM 심판)·길이 준수·지연(P50·P95)을 측정했다. (3) 작은 모델부터 큰 모델까지 비교한다. (4) '충분히 좋은 가장 작은 모델(SAGE)'을 고른다.

평가는 Arize가 만든 오픈소스 도구 Phoenix로 진행했다. 기준선인 Claude Sonnet은 평균 지연 2.9초, 14개 작업에 약 0.22달러가 들어 미마 운영에 하루 약 1달러의 추론비가 발생했다. 반면 로컬 모델은 추론이 사용자 기기로 넘어가 운영자 비용이 사실상 0이다. 후보는 Qwen 2.5(1.5B)·Qwen 3(1.7B)·Llama 3.2(3B)·Gemma 4 E2B(5B)였는데, Qwen 2.5는 가장 빨랐지만 정확도가 낮았고 Gemma 4는 느렸으며, 정확도(약 90%)와 속도를 함께 본 최종 승자는 Llama 3.2였다. 메타가 소셜 데이터 요약에 강한 모델을 만든다는 점에서 납득되는 결과다.

남은 성능 격차는 프롬프트 엔지니어링으로 메웠다. 기준 프롬프트 외에 번호 입력·퓨샷·엄격 규칙·생각의 사슬 네 가지를 한 번에 한 변수씩 시험한 결과, 엄격한 금지 규칙은 오히려 성능을 떨어뜨렸고 생각의 사슬은 지연만 늘렸으며, 예시 몇 개를 준 '퓨샷'이 길이·정확도·참조 일치에서 가장 좋았다(지연 증가는 200ms에 그침).

퓨샷에 후처리(참조 개수 검증, 너무 긴 요약은 잘라내기)를 더하자 JSON·구조 유효성 100%, 지연도 Claude보다 나아졌고 사실 일관성의 남은 격차는 심판인 Claude가 자기 '동생' 모델을 편드는 지나치게 엄격한 판정 탓이었다. 그는 회귀 평가를 CI/CD처럼 상시 돌려 프롬프트·모델 변경이 품질을 망치지 않게 하라고 조언하며, '당신이 LLM에 보내는 요청 중 작은 모델로 처리 가능한 것이 얼마나 되는지' 직접 점검해 보라고 권한다.

주요 인사이트

토큰 단가 하락이 곧 비용 절감은 아니다. 에이전트의 반복 추론이 가격 하락보다 빠르게 토큰을 소비해 총 추론 지출은 오히려 늘 수 있다.
'크게 프로토타입, 작게 배포'가 핵심 원칙이다. 큰 모델로 가능성을 증명한 뒤 운영용으로 소형·특화 모델로 전환한다.
모델 선택은 동료의 추천이 아니라 골든 데이터셋과 정량 평가(정확도·지연·유효성)로 해야 하며, 목표는 '충분히 좋은 가장 작은 모델(SAGE)'이다.
엄격한 금지형 프롬프트는 작은 모델에서 역효과를 낼 수 있고, 예시를 보여주는 퓨샷 방식이 비용 대비 성능 개선이 가장 컸다.
LLM 심판을 쓸 때는 같은 계열 모델을 편드는 편향이 생길 수 있어, 평가 결과를 직접 열어 원본 응답을 확인하는 것이 중요하다.

자주 묻는 질문

거대 클라우드 모델을 매번 쓰는 데 어떤 숨은 비용이 있나?

외부 서버로 데이터를 보내는 보안 위험, 4초를 넘기기 쉬운 응답 지연, 통제하기 어려운 제3자 추론 비용, 네트워크 단절 시 작동 불가 등이 있다. 토큰 단가는 내려도 총 추론 지출은 오히려 늘고 있다.

'크게 프로토타입, 작게 배포'는 무슨 뜻인가?

가장 강력한 모델로 그 작업이 가능한지 먼저 증명한 뒤, 운영 단계에서는 해당 기능을 소형 언어모델이나 작업 특화 모델로 바꿔 배포한다는 원칙이다.

발표자는 어떤 기준으로 모델을 골랐고 결과는?

Phoenix로 JSON·참조 유효성, 사실 일관성, 길이, P50/P95 지연을 측정해 Qwen·Llama·Gemma를 비교했고, 정확도(약 90%)와 속도를 함께 만족한 Llama 3.2가 최종 승자였다.

작은 모델과 거대 모델의 성능 격차는 어떻게 줄였나?

예시를 보여주는 퓨샷 프롬프트가 가장 효과적이었고, 여기에 참조 검증·길이 자르기 같은 후처리를 더해 JSON·구조 유효성 100%와 Claude보다 나은 지연을 달성했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗