AI VIDEO BRIEFING

LLM 파인튜닝 입문: Unsloth·Colab·Ollama로 맞춤 모델 만들기

파인튜닝이 무엇이고 언제 해야 하는지부터, 데이터 준비·Unsloth·Google Colab 학습·GGUF 내보내기·Ollama 실행까지 맞춤 LLM을 만드는 전 과정을 단계별로 정리했다.

출처: Tech With Tim2025년 6월 27일AI 보조 요약

내 데이터로 LLM 파인튜닝하기: Unsloth와 Ollama로 로컬에서 실행하는 법 영상 대표 이미지

핵심 메시지

파인튜닝은 이미 학습된 모델을 가져와 특정 작업에 더 잘하도록 가르치는 것으로, 온도·top-k를 조정하는 파라미터 튜닝과는 다르다.
일관된 형식, 모델이 못 본 도메인 데이터, 비용 절감(작은 전문 모델 사용)이라는 세 상황에서 주로 쓴다.
처음부터 학습하는 것보다 데이터와 연산이 훨씬 적게 들어, 수백~수천 개 예시와 수 분~수 시간이면 가능하다.
가장 중요한 단계는 데이터 준비이며, 입력과 출력 쌍으로 된 좋은 데이터가 곧 좋은 모델을 만든다.
Unsloth로 Google Colab의 무료 GPU에서 학습한 뒤 GGUF 형식으로 내보내, 모델 파일을 만들어 Ollama에서 로컬로 실행할 수 있다.

쉽게 이해하기

파인튜닝은 미리 학습된 언어 모델을 가져와 내 특정 작업에 더 능숙해지도록 가르치는 것이다. 영상은 이를 ‘숙련된 요리사를 고용해 우리 식당의 레시피를 가르치는 것’에 비유한다. 0에서 학습하는 대신 이미 인간 언어를 이해하는 모델에 고객 상담 대화, 법률 문서, 의료 기록 같은 구체적 사례를 먹이면, 모델이 기존 지식을 조정해 그 도메인에 특화된다. 이는 온도나 top-k 같은 설정을 바꾸는 파라미터 튜닝과는 전혀 다르다.

파인튜닝이 필요한 상황은 크게 셋이다. 첫째, 프롬프트만으로는 얻기 어려운 일관된 형식이나 문체가 필요할 때(예: 특정 JSON 형식 출력). 둘째, 모델이 본 적 없는 도메인 특화 데이터가 많을 때(고급 의료 기록, 상담 로그 등). 셋째, 거대한 모델 대신 작고 특화된 모델로 비용을 줄이고 싶을 때다. 처음부터 학습하는 것에 비해 데이터와 연산이 훨씬 적게 들어, 수백만 개 예시와 수개월이 아니라 수백~수천 개 예시와 수 분~수 시간이면 된다. 다만 파인튜닝하면 보통 일반 작업 성능은 떨어지고 목표 작업 성능은 올라간다는 점을 감수해야 한다.

가장 중요한 단계는 데이터 준비다. 데이터가 나쁘면 모델도 나빠진다. 영상은 HTML 추출을 보여주기 위해 AI로 만든 간단한 데이터셋을 쓴다. div·h2·가격 태그 등이 든 HTML을 입력으로 주면, 이름·가격·카테고리·제조사를 깔끔하게 정리해 출력하도록 한다. 입력과 출력 쌍으로 된 예시 500개를 JSON 파일에 담았고, 데이터 형식만 입력/출력 쌍이면 상담 데이터든 의료 보고서든 무엇이든 가능하다.

학습 도구로는 오픈소스이며 빠른 Unsloth를 쓴다. 강력한 GPU(4080/4090급)가 없으면 로컬 학습은 매우 오래 걸리므로, 무료로 고성능 GPU를 제공하는 Google Colab(T4 GPU, 파이썬 3 런타임)을 권한다. 데이터 파일을 Colab에 업로드해 JSON으로 불러오고, 의존성을 설치한 뒤 런타임을 재시작한다. 모델은 시간을 줄이기 위해 작은 Phi-3 mini를 골랐지만, Llama 3.1·Mistral·Mixtral 등 Unsloth가 지원하는 오픈소스 모델은 무엇이든 가능하다. 시퀀스 길이를 정하고 4비트로 모델을 불러온다.

전처리에서는 입력과 출력을 하나의 문자열로 합친다. 출력의 JSON 객체는 json.dumps로 문자열로 바꾸고 끝에 end-of-text 태그를 붙여 모델이 텍스트의 끝을 알게 한다. 이어 LoRA 어댑터를 추가해 파인튜닝에 필요한 층을 붙이고, SFT 트레이너에 모델·토크나이저·데이터셋(텍스트 필드)을 넘겨 학습을 시작한다. 영상의 작은 모델·적은 예시 기준으로 학습은 약 10분 걸렸다. 학습 후 추론 모드로 몇 개 메시지를 테스트해 동작을 확인한다.

주요 인사이트

파인튜닝과 파라미터 튜닝은 다르다. 파라미터 튜닝이 자동차 라디오를 조절하는 것이라면, 파인튜닝은 자동차에게 완전히 다른 동네에서 운전하는 법을 가르치는 것에 가깝다.
성능의 핵심은 데이터의 질이다. 예시가 많을수록, 베이스 모델이 클수록 성능은 좋아지지만 학습 시간도 길어진다. 작은 모델에 적은 예시를 쓰면 결과가 늘 완벽하진 않아 같은 입력에도 출력이 달라질 수 있다.
LoRA 어댑터의 세부 파라미터를 모두 이해할 필요는 없다. Colab의 ‘코드 설명’ 기능(Gemini)이나 LLM에게 물어 의미를 파악하면 된다는 점을 영상이 직접 보여준다.
완성한 모델은 Ollama가 이해하는 GGUF 형식으로 내보낸다. 모델 저장과 다운로드는 인터넷 속도에 따라 10~25분가량 걸릴 수 있는 큰 파일 작업이다.
Ollama에서 쓰려면 ‘모델 파일’을 만든다. FROM에 로컬 GGUF 파일을 지정하고 top_p·temperature·stop 같은 파라미터와 템플릿, 시스템 메시지를 정의한 뒤 ‘ollama create -f model file’로 등록하면, ‘ollama run’으로 로컬에서 맞춤 모델을 돌리고 파이썬 등에서 호출해 앱에 연결할 수 있다.

자주 묻는 질문

파인튜닝은 언제 해야 하나?

세 가지 경우다. 프롬프트만으로는 안 되는 일관된 형식·문체가 필요할 때, 모델이 본 적 없는 도메인 특화 데이터가 많을 때, 그리고 거대한 모델 대신 작고 특화된 모델로 비용을 줄이고 싶을 때다.

처음부터 학습하는 것과 무엇이 다른가?

이미 언어를 이해하는 모델에서 출발하므로 데이터와 연산이 훨씬 적게 든다. 수백만 개 예시와 수개월이 아니라 수백~수천 개 예시와 수 분~수 시간이면 된다. 대신 일반 작업 성능은 보통 떨어지고 목표 작업 성능이 올라간다.

학습한 모델을 어떻게 로컬에서 실행하나?

Unsloth로 Colab에서 학습한 모델을 GGUF 형식으로 내보내 내려받은 뒤, FROM에 그 파일을 지정한 모델 파일을 만들고 ‘ollama create -f’로 등록한다. 이후 ‘ollama run’으로 로컬에서 실행할 수 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗