AI VIDEO BRIEFING

소형 언어모델(SLM) 파인튜닝 실습: Gemma 3 270M으로 나만의 AI 만들기

10억 파라미터 미만의 소형 언어모델을 직접 파인튜닝하는 전 과정. Gemma 3 270M을 커스텀 데이터로 학습해 구조화 데이터를 추출하고, 허깅페이스에 올려 데모까지 공개하는 방법을 정리했다.

출처: Daniel Bourke2026년 1월 9일AI 보조 요약

270M 작은 언어모델 직접 파인튜닝하기: 데이터·모델·데모까지 한 번에 영상 대표 이미지

핵심 메시지

특정 작업만 잘하면 될 때는 거대 모델 대신 10억 파라미터 미만의 소형 언어모델(SLM)을 파인튜닝하는 편이 효율적이다.
직접 파인튜닝하면 모델을 소유하고 자체 하드웨어에서 돌릴 수 있어 데이터가 외부로 나가지 않는다.
LLM은 결국 '토큰이 들어가고 토큰이 나오는' 구조이므로, 입력과 이상적 출력만 잘 준비하면 전용 모델을 만들 수 있다.
큰 모델(GPT-OSS 120B)이 만든 라벨로 444배 작은 모델을 학습시키는 지식 증류로 성능을 끌어올린다.
허깅페이스의 'Data → Model → Demo' 흐름을 따라 데이터셋, 파인튜닝, 공개 데모까지 한 번에 완성한다.

쉽게 이해하기

진행자 대니얼 버크는 10억 파라미터 미만을 소형 언어모델(SLM)로 정의하고, 허깅페이스의 Gemma 3 270M을 내려받아 커스텀 데이터셋으로 파인튜닝한 뒤 다시 허깅페이스에 올리고 데모까지 만드는 전 과정을 보여 준다. 인터넷 전체로 학습한 거대 모델이 필요 없는 단순 작업이라면 작은 모델로 충분하다는 점이 출발점이다.

직접 파인튜닝의 이점으로는 모델 소유, 자체 하드웨어 실행, 데이터의 로컬 유지, API 호출 불필요(오프라인 가능), 배치 추론을 통한 빠른 처리량을 든다. 핵심 메시지는 'LLM은 토큰이 들어가고 토큰이 나온다'는 것으로, 원하는 입력과 이상적 출력만 갖추면 특정 작업 전용 모델을 만들 수 있다고 강조한다.

작업은 이미지 캡션 같은 임의의 텍스트에서 음식·음료 정보를 구조화해 추출하는 것이다. 데이터셋 'food extract 1K'는 실제·합성·무의미 문자열을 섞은 약 1,400개 샘플로, 120B 규모의 GPT-OSS가 라벨을 달았다. 즉 크고 강력한 오픈소스 모델의 지식을 444배 작은 모델로 증류하는 셈이다.

학습은 transformers와 TRL 라이브러리의 지도 미세조정(SFT)으로 진행한다. 출력은 JSON 대신 YAML 형태로 압축해 토큰 수를 줄였는데, 한 샘플에서 71토큰을 50토큰으로 줄이면 100만 건 추론 시 수천만 토큰을 절약할 수 있다는 점을 실제 토큰 카운터로 보여 준다. 데이터는 모델이 학습된 대화 형식(role: user/system)으로 변환하고, 80:20으로 학습·평가셋을 나눈다.

엔비디아 DGX Spark에서 약 5분 만에 학습이 끝나며, 같은 코드는 무료 구글 코랩(L4·T4 GPU, 약 16GB VRAM)에서도 동작한다. 파인튜닝 후 모델은 프롬프트 없이도 원하는 구조의 출력을 안정적으로 내놓고, 444배 큰 모델과 비슷한 수준의 추출 결과를 보인다. 마지막으로 모델을 허깅페이스 허브에 올리고 Gradio로 데모 스페이스를 만들어 누구나 써 볼 수 있게 공개한다.

주요 인사이트

거대 모델이 항상 정답은 아니다. 작업이 충분히 단순하면 작은 모델을 파인튜닝하는 쪽이 비용·속도·프라이버시 면에서 유리하다.
파인튜닝의 본질은 모델이 이미 가진 언어 이해 능력을 원하는 출력 형식으로 '빚어내는' 것이며, 베이스 모델의 일반적 응답도 좋은 출발점이 된다.
출력 형식을 JSON에서 YAML 같은 압축 형태로 바꾸면 토큰이 줄어 대규모 추론에서 막대한 시간과 비용을 아낄 수 있다.
머신러닝의 제1원칙인 학습·평가셋 분리를 지켜야 벤치마크 누수 없이 모델의 실제 성능을 가늠할 수 있다.
모델이 틀린 사례는 오히려 자산이다. 실패 사례를 모아 데이터에 보강하고 재학습하는 반복 루프가 파인튜닝의 핵심 작업 흐름이다.

자주 묻는 질문

왜 거대 모델 대신 소형 모델을 파인튜닝하나요?

작업이 단순하면 인터넷 전체로 학습한 거대 모델이 필요 없습니다. 소형 모델은 자체 하드웨어에서 돌릴 수 있어 데이터가 외부로 나가지 않고, API 호출 없이 오프라인으로도 빠르게 배치 추론을 할 수 있습니다.

어떤 모델과 데이터로 학습하나요?

Gemma 3 270M을 베이스 모델로, 음식·음료 정보를 추출하는 약 1,400개 샘플의 food extract 1K 데이터셋을 사용합니다. 라벨은 120B 규모의 GPT-OSS가 달아 큰 모델의 지식을 작은 모델로 증류합니다.

출력을 YAML로 압축하면 무엇이 좋나요?

디코더 모델은 토큰을 하나씩 생성하므로 출력 토큰이 많을수록 느려집니다. JSON의 중복 기호를 줄여 71토큰을 50토큰으로 압축하면, 100만 건을 추론할 때 수천만 토큰과 그만큼의 시간을 절약할 수 있습니다.

고가의 전용 하드웨어가 꼭 필요한가요?

아닙니다. 영상은 엔비디아 DGX Spark에서 약 5분 만에 학습했지만, 동일한 코드가 무료 구글 코랩의 L4나 T4 GPU(약 16GB VRAM)에서도 동작합니다. 배치 크기만 낮추면 됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗