AI VIDEO BRIEFING
LLM 파인튜닝이란? RAG와의 차이, LoRA·QLoRA까지 쉽게 정리
전이 학습 비유로 풀어보는 LLM 파인튜닝의 개념과, RAG와의 비용·품질 차이, 베이스 모델과 인스트럭트 모델, 전체 파인튜닝과 LoRA·QLoRA의 차이를 codebasics 영상으로 설명합니다.

핵심 메시지
쉽게 이해하기
발표자는 인도에서 미국으로 이주한 뒤 야구를 처음 했는데도 편하게 즐길 수 있었던 경험으로 이야기를 시작한다. 이미 크리켓을 해봤기에 방망이로 공을 치고 추적하며 달리는 기본기를 야구로 옮겨 쓸 수 있었다는 것이다. AI에서 이렇게 한 영역의 능력을 다른 영역으로 옮겨 재훈련하는 것을 전이 학습(transfer learning)이라 하고, 그 한 형태가 바로 LLM 파인튜닝이다.
GPT-5, Llama 같은 LLM은 방대한 인터넷 데이터로 학습되지만, 특정 기업의 내부 데이터를 알고 정해진 말투·형식으로 답하는 챗봇이 필요하다면 파인튜닝이 등장한다. 즉 파인튜닝은 Llama 같은 사전학습 모델을 특정 작업·데이터·말투·형식에 맞게 다시 훈련하는 과정이다.
예를 들어 가상의 "로키폰" 회사 챗봇에 고객이 "로키폰 12 화면이 깨졌어요, 어떤 선택지가 있나요?"라고 물으면, 기본 LLM은 일반적인 답만 내놓는다. 정답인 "로키 케어 플러스 요금제를 쓰세요" 같은 내용은 인터넷에 없는 비공개 데이터이기 때문이다. 이때 한 가지 방법이 RAG(검색 증강 생성)로, LLM을 데이터베이스·PDF 같은 외부 비공개 지식에 연결해 답하게 한다.
RAG의 장점은 모델을 재훈련하지 않는다는 점이다. LLM은 수백억 개(예: 700억 개) 파라미터(각 연결의 가중치)를 가진 거대한 신경망인데, RAG는 이 가중치를 갱신하지 않아 비용 효율적이다. 다만 회사의 브랜드 말투나 기대하는 형식으로 최적의 답을 내기는 어렵다. 반면 파인튜닝은 공감이나 슬랭, 브랜드 톤을 반영한 더 정밀한 답을 만들 수 있다. 그래서 RAG는 저렴하고 파인튜닝은 비싸지만 답 품질이 좋아, 실무에서는 둘을 함께 쓰는 경우가 많다.
베이스 모델과 인스트럭트 모델의 차이도 설명한다. Llama 3.2 1B 같은 베이스 모델은 "인도의 수도는"이라고 하면 "델리"를 이어 붙이는 자동완성에 가깝다. 반면 같은 베이스를 파인튜닝한 인스트럭트 모델은 ChatGPT처럼 질문-답변 형태로 요약·번역 같은 지시를 수행한다. 파인튜닝에는 전체 신경망을 다시 훈련하는 풀 파인튜닝과, 기존 층을 동결하고 일부 층만 추가·갱신하는 파라미터 효율적 파인튜닝(PEFT)이 있으며, 후자의 대표 기법이 LoRA와 QLoRA다.
주요 인사이트
- 파인튜닝은 전이 학습의 응용이다. 크리켓 기본기를 야구로 옮기듯, 이미 학습된 모델의 능력을 새 작업·데이터·형식으로 옮겨 재훈련한다.
- RAG와 파인튜닝은 대립이 아니라 보완 관계다. RAG는 비공개 지식을 저렴하게 끌어오고, 파인튜닝은 말투·형식·공감 같은 표현 품질을 높인다.
- RAG가 저렴한 이유는 수백억 개 파라미터를 전혀 갱신하지 않고 외부 지식만 참조하기 때문이다. 반대로 파인튜닝은 가중치를 갱신해 비용이 크다.
- 베이스 모델은 자동완성기에 가깝고, 인스트럭트 모델은 파인튜닝을 거쳐 ChatGPT처럼 지시를 따르는 형태가 된다. 같은 베이스라도 파인튜닝 여부로 사용성이 크게 달라진다.
- LoRA·QLoRA 같은 파라미터 효율적 파인튜닝은 대부분의 층을 동결하고 일부 층만 추가·학습해, 700억~1000억 파라미터를 모두 갱신하는 풀 파인튜닝의 비용 부담을 크게 줄인다.
자주 묻는 질문
LLM 파인튜닝이란 무엇인가요?
사전학습된 모델(예: Llama)을 특정 작업·데이터·말투·형식에 맞게 다시 훈련하는 과정으로, 전이 학습의 한 형태입니다.
RAG와 파인튜닝은 어떻게 다른가요?
RAG는 모델을 재훈련하지 않고 외부 지식을 참조해 답하므로 저렴하지만 브랜드 말투·형식을 맞추긴 어렵습니다. 파인튜닝은 비용이 크지만 말투·공감·형식이 반영된 더 정밀한 답을 냅니다. 실무에서는 둘을 함께 쓰기도 합니다.
베이스 모델과 인스트럭트 모델의 차이는 무엇인가요?
베이스 모델은 문장을 이어 붙이는 자동완성에 가깝고, 같은 모델을 파인튜닝한 인스트럭트 모델은 ChatGPT처럼 질문에 답하고 요약·번역 같은 지시를 수행합니다.
풀 파인튜닝과 LoRA·QLoRA는 어떻게 다른가요?
풀 파인튜닝은 모델의 전체 파라미터를 갱신해 비용이 큽니다. LoRA·QLoRA 같은 파라미터 효율적 파인튜닝은 기존 층을 동결하고 일부 층만 추가·학습해 비용을 크게 줄입니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗