AI VIDEO BRIEFING

소형 언어 모델(SLM) 파인튜닝 — 온디바이스 AI·양자화·프라이버시 가이드

기기에서 직접 돌아가는 소형 언어 모델을 만드는 이유와 방법을 실제 사례로 풀었다. 파인튜닝·양자화·데이터셋 제작과 프라이버시·비용 이점까지.

출처: Daniel Bourke2026년 3월 13일AI 보조 요약

아이폰에서 돌아가는 AI: 소형 언어 모델 파인튜닝의 실제 영상 대표 이미지

핵심 메시지

소형 언어 모델(SLM)은 노트북이나 스마트폰에서 직접 돌릴 수 있는 모델을 뜻하며, 데이터를 기기 밖으로 보내지 않아 프라이버시·지연시간·오프라인·비용 면에서 강점을 가진다.
맞춤 모델은 초기 학습·하드웨어 투자만 하면 이후 추론은 기기에서 무료로 무한히 실행할 수 있어, API 모델과 비용 구조가 근본적으로 다르다.
파인튜닝 자체는 짧다. 발표자는 의료용 모델을 약 15분, 이름→정보 데모 모델을 약 2분 만에 학습시켰다. 가장 어려운 일은 좋은 데이터셋과 평가셋을 만드는 것이다.
양자화로 정밀도를 낮추면(예: float16→4비트) 모델 용량을 크게 줄여 일반 아이폰에서도 돌릴 수 있다. '파라미터는 키우고 정밀도는 낮추는' 방향이 주목받고 있다.
프롬프팅·파인튜닝·RAG는 목적이 다르다. 보통 프롬프팅에서 시작해, 특정 작업엔 파인튜닝, 특정 지식엔 RAG를 쓰고 필요에 따라 섞는다.

쉽게 이해하기

발표자 대니얼 버크는 SLM을 '자기 컴퓨터나 아이폰에서 직접 돌릴 수 있는 모델'로 정의한다. 그는 프레임워크 성숙과 모델 공개 덕분에 최근 몇 달 사이에야 가능해진 온디바이스 모델 작업을 라이브 시연을 곁들여 소개한다.

첫 사례는 캐글 대회에 낸 'Sunny' 앱이다. 구글의 의료 도메인 파인튜닝 모델 Med-Gemma를 아이폰에서 통째로 구동해, 피부 사진을 분석하고 피부암 자가검진 습관을 돕는다. 사진이 기기를 떠나지 않아 프라이버시가 보장되며, 진단이 아닌 추적 도구임을 분명히 한다.

온디바이스 구동에는 하드웨어 이해가 필요하다. 비전 부분은 아이폰의 신경망 처리 장치(NPU)에서, 토큰을 하나씩 생성하는 언어 부분은 GPU에서 돌리는 것이 현재의 모범 사례다. 메모리도 관건이라, 4비트 양자화로 4B 모델을 약 3.5GB까지 줄여 최신 아이폰에서 무리 없이 실행했다.

라이브에서는 2억 7천만 파라미터의 Gemma 3 270M을, 밋업 참가자 이름을 넣으면 공개 링크드인 정보를 알려 주도록 파인튜닝한다. GPT-OSS로 만든 합성 데이터셋(약 8천 개 샘플)을 Hugging Face TRL의 지도형 파인튜닝(SFT)으로 학습했고, 고성능 GPU에서 약 100초 만에 끝났다.

결과 비교에서 기본 모델은 사람 이름에 엉뚱한 일반적 설명을 내놓지만, 파인튜닝 모델은 원하는 구조의 정보를 출력한다. 다만 작은 모델에 사실을 외우게 하면 형식은 맞아도 사실이 틀리는 환각이 생기므로, 사실 정확성이 필요하면 다음 단계로 RAG를 결합하는 것이 적절하다고 짚는다.

주요 인사이트

온디바이스 모델의 가장 큰 이점은 프라이버시다. 의료·기업 데이터처럼 건물이나 국가 밖으로 나갈 수 없는 데이터에 특히 유효하며, 지연시간·오프라인·비용 절감도 따라온다.
비용 구조가 다르다. 맞춤 모델은 선투자가 들지만 이후 추론은 기기에서 무료로 무한 실행되므로, 1천만 건을 매년 20년간 돌려도 API 청구서가 없다.
이제 어려운 일은 모델 학습이 아니라 데이터셋 제작이다. 생성형 모델로 합성 데이터를 만들 수 있어, 과거 수개월 걸리던 맞춤 데이터셋 구축이 몇 시간으로 줄었다. 좋은 '평가셋'을 만드는 일은 여전히 어렵다.
정밀도 양자화는 용량을 줄이는 핵심 수단이다. float32(16GB)→float16(8GB)→4비트(약 3.5GB) 식으로 줄이면 소비자 기기에서 구동 가능해진다. 작은 기기에서는 토큰 하나하나가 메모리를 차지하므로 짧은 프롬프트가 중요하다.
작은 모델도 특정 작업에 한정하면 최신 대형 모델에 견줄 수 있다. 발표자는 특정 용도가 분명하다면 인터넷 전체로 학습된 모델이라도 자신의 데이터로 파인튜닝하는 것이 대체로 가치 있다고 강조한다.

자주 묻는 질문

모델을 기기에서 직접 돌리는 것이 왜 중요한가?

가장 큰 이유는 프라이버시다. 피부 사진 같은 민감한 데이터가 기기를 떠나지 않으므로 안전하다. 그 밖에 인터넷 없이 작동하는 오프라인 사용, 낮은 지연시간, 추론 비용 절감, 사용 편의성 같은 이점도 있다.

양자화는 무엇이고 왜 필요한가?

양자화는 모델 가중치의 정밀도를 낮추는 것으로, 예컨대 4B 파라미터 모델을 float16의 약 8GB에서 4비트의 약 3.5GB로 줄일 수 있다. 이렇게 용량을 줄여야 RAM이 제한된 일반 스마트폰에서도 모델이 충돌 없이 돌아간다.

파인튜닝, 프롬프팅, RAG는 언제 쓰나?

발표자는 보통 프롬프팅에서 시작해, 특정 작업을 시키려면 파인튜닝을, 특정 지식을 참조하게 하려면 RAG를 쓰고 필요에 따라 섞으라고 설명한다. 작은 모델에 사실을 외우게 하기보다는, 형식은 파인튜닝으로 잡고 사실은 RAG로 보강하는 식이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗