AI VIDEO BRIEFING

타이니 LLM 온디바이스 파인튜닝: 함수 호출 정확도 46%에서 90%로 올린 구글 사례

구글 AI 엣지 팀이 온디바이스 소형·초소형 LLM 전략과, 합성 데이터 파인튜닝으로 함수 호출 정확도를 46%에서 90% 이상으로 끌어올린 사례를 공유했다.

출처: AI Engineer2026년 5월 20일AI 보조 요약

온디바이스 AI의 현실: 1억~5억 파라미터 '타이니 LLM'을 파인튜닝해 90%까지 영상 대표 이미지

핵심 메시지

온디바이스 AI는 지연시간·프라이버시·오프라인·비용 절감 때문에 매력적이며, 구글 AI 엣지 스택(라이트RT)은 27억 대 이상의 기기에서 쓰인다.
앱 개발자의 선택지는 시스템에 내장된 GenAI(AI 코어의 제미나이 나노)와, 앱에 직접 모델을 싣는 앱 GenAI로 나뉜다.
젬마(Gemma) 기반의 '온디바이스 스킬'은 스킬 설명만 프롬프트에 넣고 필요할 때 도구로 불러와, 앱 안에서 자바스크립트 UI까지 렌더링한다.
10억 파라미터 미만의 타이니 LLM은 좁고 명확한 작업에 한정하고 합성 데이터로 파인튜닝해야 제 성능을 낸다.
함수 젬마(2억 7천만 파라미터)는 기본 상태 46%였던 함수 호출 정확도가 파인튜닝 후 8개 함수에서 90%를 넘겼다.

쉽게 이해하기

구글 AI 엣지 팀의 코맥 브릭이 '온디바이스 에이전트'를 주제로, 기기에서 직접 돌아가는 소형 언어 모델과 시스템 차원의 생성형 AI를 설명했다. 온디바이스가 매력적인 이유는 분명하다. 지연시간이 짧고, 데이터가 기기를 떠나지 않아 프라이버시에 유리하며, 오프라인에서도 동작하고, 비용을 아낄 수 있다. 구글 AI 엣지 스택은 미디어파이프, LLM 하니스인 라이트RT-LM, 그리고 과거 텐서플로 라이트로 불리던 라이트RT 런타임으로 구성되며 CPU·GPU·NPU에서 돌아간다. 라이트RT는 안드로이드 OS에 내장돼 이미 27억 대 이상의 기기에서 쓰인다.

앱에 지능을 넣는 길은 두 갈래다. 하나는 시스템에 미리 설치된 GenAI로, AI 코어를 통한 제미나이 나노가 대표적이다. 젬마 계열의 E2B·E4B를 기반으로 고도로 최적화돼 있고, 앱 용량을 늘리지 않으며 요약 같은 API를 바로 쓸 수 있어 출발점으로 좋다. 다른 하나는 앱 GenAI로, 라이트RT-LM 런타임을 통해 모델을 앱이나 웹페이지에 직접 싣는다. 손은 더 가지만 커스터마이즈 폭과 도달 범위가 넓어, 시스템이 제공하지 않는 특화·맞춤 작업에 적합하다.

지난주 젬마와 함께 등장한 '온디바이스 스킬'이 이날의 핵심이었다. 시스템 프롬프트에 스킬 전체가 아니라 스킬 '설명'만 넣고, 모델이 필요하다고 판단하면 스킬 로드 도구로 해당 스킬을 그때 불러온다. 예컨대 '구글 사무실 위치를 보여줘'라고 하면 지도 스킬을 골라 불러오고, 앱 안에서 자바스크립트로 지도 UI를 띄운다. 시연된 식당 룰렛처럼 스킬에 간단한 자바스크립트를 넣어 화면을 그릴 수 있다. 이 앱은 '구글 AI 엣지 갤러리'로, 안드로이드용 코드가 오픈소스이며 라이트RT-LM으로 만들어졌고 콴·파이 같은 외부 모델도 지원한다. 스킬은 스킬로 만들 수 있어, 제미나이 CLI로 팀이 약 80개의 스킬을 만들었고 기기 테스트용 ADB 스킬까지 활용한다.

후반부는 타이니 LLM, 즉 10억 파라미터 미만 모델을 다뤘다. 배포 흐름은 트랜스포머스에서 시작해 라이트RT-토치로 내보내고 라이트RT-LM으로 올리는 식이며, 데스크톱에서 먼저 시험해볼 수 있는 참조 버전도 있다. 이 정도로 작은 모델은 시각언어모델·전사 같은 고정 기능형으로 쓰거나, 좁고 명확한 작업에 맞춰 파인튜닝해야 한다. 1억~2억 파라미터까지 내려가면 작업을 아주 좁게 정의하고 합성 데이터로 학습시키는 것이 사실상 필수다. 애플의 패스트VLM(5억 파라미터)이 퀄컴 NPU에서, 함수 젬마(2억 7천만, 젬마 3 기반)가 픽셀 7에서도 초당 약 2,000토큰 프리필·140토큰 디코드로 도는 등 빠른 사례가 제시됐다.

백미는 정확도 향상 사례다. '앱 인텐트'(캘린더 추가·이메일 추가 같은 기능)에서 함수 젬마를 그대로 쓰면 성공률이 약 46%였는데, 더 큰 모델처럼 시스템 프롬프트로 함수를 알려주는 대신 합성 데이터셋을 만들어(플래시 모델로 데이터 생성) 파인튜닝하자 시도한 10개 함수 중 8개에서 90%를 넘겼다. 또 다른 사례인 전사 앱 '엘로퀀트'는 젬마 3 기반의 ASR 엔진과 텍스트 다듬기 엔진을 각각 수억 파라미터로 묶어, 사용자 사전(전문 용어·이름)을 반영하고 '음', '어' 같은 군더더기를 지우는 오프라인 전사를 구현했다. 결론은 분명하다. 프롬프트보다 손은 더 가지만, 파인튜닝을 거치면 작은 모델로도 앱에 실을 만큼 견고한 기능을 만들 수 있다.

주요 인사이트

온디바이스 전략은 '시스템 내장 GenAI'와 '앱에 싣는 GenAI'의 선택 문제다. 표준 작업은 내장 모델로 시작하고, 특화 작업은 앱에 모델을 실어 커스터마이즈한다.
스킬을 프롬프트에 '설명'으로만 넣고 필요할 때 도구로 로드하는 방식은 작은 모델의 제한된 컨텍스트를 아끼는 영리한 설계다.
초소형 모델은 범용성을 포기하고 좁은 작업에 집중할수록 강해진다. 1억~2억 파라미터대에서는 합성 데이터 파인튜닝이 성능의 분기점이다.
함수 호출 46%→90%의 도약은 모델 크기를 키우지 않고도 데이터와 파인튜닝만으로 실사용 가능한 신뢰도를 확보할 수 있음을 보여준다.
단일 대화에서 스킬을 순차적으로 고르는 것은 안정적이지만, 한 번의 응답에서 여러 스킬을 함께 호출하는 것은 여전히 어려운 과제로 남아 있다.

자주 묻는 질문

온디바이스로 AI를 돌리면 어떤 이점이 있나요?

지연시간이 짧고, 데이터가 기기를 떠나지 않아 프라이버시에 유리하며, 오프라인에서도 동작하고 비용을 아낄 수 있습니다. 구글 AI 엣지 런타임은 이미 27억 대 이상의 기기에서 쓰입니다.

타이니 LLM은 왜 파인튜닝이 필요한가요?

10억, 특히 1억~2억 파라미터급으로 내려가면 모델이 제대로 동작하려면 작업을 아주 좁고 명확하게 한정해야 합니다. 합성 데이터로 파인튜닝하면 이 좁은 작업에서 견고한 성능을 낼 수 있습니다.

함수 호출 정확도를 46%에서 90%로 올린 방법은 무엇인가요?

큰 모델처럼 시스템 프롬프트로 함수를 알려주는 대신, 플래시 모델로 합성 데이터셋을 만들어 함수 젬마를 파인튜닝했습니다. 그 결과 시도한 10개 함수 중 8개에서 90%를 넘겼습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗