AI VIDEO BRIEFING

AI 파인튜닝 입문 가이드: 프롬프트·RAG와 무엇이 다른가, LoRA·GPU 선택까지

자기 채널 자막으로 오픈소스 모델을 파인튜닝해 '자기 말투'를 입힌 엔지니어가, 파인튜닝이 프롬프트·RAG와 어떻게 다른지, LoRA 원리와 데이터 준비·GPU 선택까지 5단계 파이프라인으로 솔직하게 정리했다.

로컬에서 직접 AI 파인튜닝하기: LoRA부터 GPU 선택까지 솔직 가이드 영상 대표 이미지

핵심 메시지

  • 파인튜닝은 모델 전체가 아니라 LoRA 어댑터로 전체 파라미터의 0.5~2%만 학습시키는 효율적 방식이다.
  • 프롬프트·RAG로 안 되는, 모델에 '스타일과 지식을 각인'해야 할 때가 파인튜닝의 영역이다.
  • 순서는 더 나은 프롬프트 → RAG → 에이전트 루프 → 그래도 안 되면 파인튜닝이다.
  • 첫 파인튜닝은 데이터 수집·데이터셋 가공·LoRA 학습·평가·GGUF 내보내기의 5단계로 진행된다.
  • 파인튜닝엔 충분한 VRAM이 핵심이며, CUDA를 갖춘 엔비디아가 가장 유리하고 애플 실리콘은 피하라.

쉽게 이해하기

발표자는 자기 유튜브 채널의 모든 자막으로 오픈소스 모델을 주말 동안 파인튜닝해 '자기처럼 말하는' AI를 만들었다. 효과를 보여주기 위해 기본 Qwen 3.5에 간단한 질문을 던지면, 모델이 12초씩 과하게 사고하며 시적이고 일반적인 답을 내놓는다. 반면 사고 기능을 끄도록 파인튜닝한 27B 모델(약 18GB)은 짧고 직접적이며, 그가 실제로 쓰는 '세컨드 브레인' 방식을 반영한 답을 즉시 내놓는다.

그렇다면 파인튜닝이란 무엇인가. 기본 언어모델을 가져와 LoRA 어댑터를 만드는 것이다. 자체 학습 데이터로 만드는 작은 학습형 어댑터로, 수십억 개 파라미터를 전부 재학습하는 대신 일부 파라미터만 주입한다. 보통 전체의 0.5~2%만 학습해도 충분하기 때문에, 비교적 적은 데이터로도 꽤 큰 오픈소스 모델을 튜닝할 수 있다는 것이 큰 장점이다.

언제 무엇을 써야 할까. 일회성이거나 간단한 작업은 그냥 프롬프트로 충분하다(평문으로 쓰니 비용도 사실상 무료다). 조직의 지식을 다루거나 사실이 자주 바뀌는 경우에는 RAG가 적합하다. 지식을 벡터 데이터베이스 등에 저장해 두고 사용자의 질의에 맞는 정보를 꺼내 프롬프트에 주입하는 방식으로, 비용이 낮고 여전히 효과적이며 최신 정보 반영에도 쓰인다. 하지만 프롬프트와 RAG는 결국 모델이 학습된 행동의 한계에 부딪힌다. 더 새롭고 자기 스타일에 맞춘 결과가 필요하다면, 스타일과 지식을 모델에 직접 각인하는 파인튜닝이 답이 된다.

발표자는 간단한 의사결정 흐름도 제시한다. 먼저 더 나은 프롬프트를 시도하고, 안 되면 RAG를 더하고, 그래도 안 되면 모델이 스스로 정보를 더 끌어오거나 다른 에이전트에 도움을 청하는 에이전트 루프를 고려한다(다만 제대로 만들기는 까다롭다). 그래도 실패하면 그때 파인튜닝할 만하다. 파인튜닝은 최소 주말 하나와 꽤 괜찮은 GPU를 요구하는 작업이기 때문이다.

첫 파인튜닝 프로젝트는 대략 다섯 단계다. ① 데이터 수집(80억 파라미터 모델이라면 가공 전 원시 데이터로 100만~200만 토큰 이상이 필요할 수 있다), ② 데이터셋 가공(데이터를 정제하고 프롬프트-응답 쌍을 채팅 형식으로 만든다. 나쁜 데이터를 넣으면 그 나쁜 습관이 그대로 학습된다), ③ LoRA 학습(저랭크 적응으로 0.5~1.5% 파라미터만 학습하며, 중형 모델 기준 RTX 5090에서 2~3시간), ④ 평가(바닐라 모델보다 실제로 나은지 테스트로 확인), ⑤ GGUF 내보내기(LM Studio·Ollama 같은 곳에서 쉽게 실행할 수 있는 형식)다.

주요 인사이트

  • 프롬프트나 RAG로는 모델의 학습된 행동(어디에나 쓰이는 엠대시 같은)을 끝까지 바꾸기 어렵지만, 파인튜닝은 스타일을 모델에 직접 각인한다.
  • LoRA는 전체가 아닌 0.5~1.5% 파라미터만 재학습해 데이터와 시간을 크게 줄여, 20시간 걸릴 학습을 2시간대로 단축하고 빠르게 반복할 수 있다.
  • 데이터 품질이 결과를 좌우한다 — 자막의 오탈자 등을 정제하지 않으면 그 나쁜 습관이 그대로 모델에 박힌다.
  • 하드웨어는 VRAM이 관건이라 27B급은 효율 버전으로도 14GB를 넘기기 쉽고, CUDA 생태계의 엔비디아가 가장 빠르며 애플 실리콘은 MLX 포팅 부족과 속도 문제로 파인튜닝엔 부적합하다.

자주 묻는 질문

파인튜닝은 프롬프트·RAG와 무엇이 다른가?

프롬프트와 RAG는 정보를 프롬프트에 넣어 모델을 '안내'할 뿐이지만, 파인튜닝은 스타일과 지식을 모델 자체에 각인해 매번 자기 방식으로 답하도록 보장한다.

LoRA가 왜 효율적인가?

모델의 모든 파라미터가 아니라 0.5~1.5%만 학습하는 저랭크 적응 방식이라, 필요한 학습 데이터와 시간이 크게 줄고 빠르게 반복·수정할 수 있다.

파인튜닝에는 어떤 하드웨어가 필요한가?

충분한 VRAM이 핵심으로, CUDA를 갖춘 엔비디아 GPU가 가장 빠르고 쉬우며, AMD는 ROCm으로 중간 선택지가 되고, 애플 실리콘은 권장되지 않는다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식