AI VIDEO BRIEFING

LLM 파인튜닝 기법 총정리 LoRA QLoRA DoRA DPO GRPO 선택 가이드

데이터에 맞게 잘 파인튜닝한 70억 매개변수 모델은 특정 작업에서 더 큰 모델을 능가할 수 있다. 풀 파인튜닝부터 LoRA·QLoRA·DPO·GRPO까지 핵심 기법과 선택 기준을 정리했다.

출처: The Cloud Girl2026년 6월 2일AI 보조 요약

LLM 파인튜닝 한눈에: 풀 파인튜닝부터 LoRA·QLoRA·DPO·GRPO까지 영상 대표 이미지

핵심 메시지

파인튜닝은 모델에 새 사실을 가르치는 게 아니라 어떻게 행동할지를 가르치는 일로, 행동 정렬·도메인 지식·가치 정렬 세 가지를 준다.
풀 파인튜닝은 모든 매개변수를 갱신해 70억 모델 기준 100~120GB VRAM이 필요하며, BloombergGPT처럼 급진적 도메인 전환이 필요할 때만 적합하다.
LoRA는 가중치 변화가 저차원 공간에 있다는 관찰에서 출발해 약 0.25%의 매개변수만 학습하고, 학습 후 병합하면 추가 지연이 없다.
QLoRA는 기반 모델을 4비트로 양자화해 RTX 4090 한 대로도 최신 모델 파인튜닝을 가능하게 했다.
정렬 단계에서는 RLHF 대신 보상 모델이 필요 없는 DPO, 답을 객관적으로 검증할 수 있는 영역에는 GRPO를 쓴다.

쉽게 이해하기

영상은 데이터에 맞게 올바로 파인튜닝한 70억 매개변수 모델이 특정 작업에서 더 큰 범용 모델을 꾸준히 능가할 수 있고, 중고차 한 대 값보다 싼 단일 GPU로도 가능하다고 강조한다. 파인튜닝을 연구실의 문제로 여기는 통념은 2년 전에 깨졌다는 것이다. 핵심 개념은 파인튜닝이 새로운 사실을 주입하는 게 아니라 '행동 방식'을 가르치는 일이라는 점이다. 모든 책을 읽었지만 한 번도 일해 본 적 없는 사람을 직무 교육시키는 것에 비유하며, 파인튜닝은 행동 정렬·도메인 지식·가치 정렬 세 가지를 제공한다.

가장 원형적인 방법인 풀 파인튜닝은 모델의 모든 매개변수를 갱신한다. 70억 모델이면 가중치·그래디언트·옵티마이저 상태·활성값을 동시에 메모리에 올려야 해 100~120GB VRAM, 즉 여러 대의 A100과 수만 달러가 든다. 블룸버그는 500억 매개변수 모델을 뉴스·공시·실적 발표 등 3,630억 토큰의 금융 데이터로 학습해 BloombergGPT를 만들었고 금융 NLP에서 범용 모델을 앞섰다. 하지만 대부분의 팀에게 풀 파인튜닝은 다른 무엇으로도 안 되는 급진적 도메인 전환이 필요할 때가 아니면 정답이 아니다.

2021년 마이크로소프트 연구진은 파인튜닝 시 실제 가중치 변화가 놀랄 만큼 저차원 공간에 존재한다는 점을 관찰했고, 그것이 LoRA(저랭크 적응)다. 전체 가중치 행렬을 갱신하는 대신 옆에 작은 두 행렬(랭크 8로 압축하는 다운 프로젝션과 다시 확장하는 업 프로젝션)을 주입해 약 0.25%의 매개변수만 학습한다. 학습 후 기반 가중치에 병합하면 배포 모델은 구조적으로 동일해 추가 지연이 없다. 메타는 바로 이 방식으로 Llama 2를 코드 생성에 적응시켜 적은 연산으로도 전용 코드 모델에 견줄 성능을 얻었다.

QLoRA는 기반 모델을 normal float 4 형식의 4비트로 양자화해 70억 모델을 14GB에서 6~8GB로 줄이고, LoRA 어댑터는 16비트로 학습한다. 그 결과 RTX 4090 한 대로 최신 모델을 파인튜닝할 수 있어, 환자 데이터가 병원 밖으로 나가지 않는 의료 QA 모델도 워크스테이션 한 대에서 만들어졌다. DoRA는 가중치 벡터의 크기와 방향을 분리해 LoRA보다 추가 매개변수 부담 없이 더 나은 성능을 보인다. 한편 지식과 지시 따르기만으로는 '안전한' 모델을 보장하지 못한다.

정렬 단계에서 RLHF는 사람이 출력을 순위 매겨 보상 모델을 학습하고 PPO로 정책을 갱신하지만, 네 개의 모델을 동시에 메모리에 올려야 해 비싸다. DPO는 보상 모델 없이 선호/비선호 쌍과 이진 교차 엔트로피로 두 모델만 써 VRAM을 절반으로 줄이면서 같은 품질을 낸다. 가장 최신인 GRPO는 답을 객관적으로 검증할 수 있는 수학·코드·형식 논리에서 답 묶음을 뽑아 결정론적 검증기로 통과 여부만 본다. DeepSeek은 이를 70억 수학 모델에 적용해 벤치마크를 46.8%에서 51.7%로 끌어올렸다. 영상은 하드웨어 예산·검증 가능성·데이터 중앙집중 가능 여부 세 질문으로 기법을 고르는 결정 가이드를 제시한다.

주요 인사이트

LoRA는 1%의 비용으로 풀 파인튜닝의 99% 지점까지 데려다준다. 영상의 결론은 '거의 언제나 풀 파인튜닝은 필요 없다'는 것이다.
기법 선택은 세 질문으로 정리된다. 하드웨어 예산(여러 A100+급진적 도메인 전환→풀, 단일 소비자 GPU→QLoRA, 그 중간→표준 LoRA), 객관적 검증 가능 여부(가능→GRPO, 주관적 품질→DPO), 데이터 중앙집중 가능 여부(가능→표준 PEFT, 불가→연합 LoRA).
연합 LoRA는 각 병원이 로컬 어댑터를 학습하고 가중치 업데이트만 집계자에 보내, 환자 기록이 시설을 떠나지 않으면서 공유 진단 도우미를 만들 수 있게 한다. SaaS 멀티테넌시에서는 기반 모델 하나에 고객별 작은 어댑터를 요청마다 핫스왑해 GPU 한 대로 수천 고객을 처리한다.
역량과 정렬은 분리해 푸는 것이 좋다. 지식·지시 따르기로 유능한 모델을 만들고, DPO·GRPO 같은 정렬 기법으로 안전성과 품질을 따로 다루는 접근이 핵심 교훈으로 제시된다.

자주 묻는 질문

파인튜닝은 모델에 새로운 지식을 가르치는 건가요?

영상에 따르면 주로 새 사실을 주입하는 게 아니라 '어떻게 행동할지'를 가르치는 일입니다. 파인튜닝은 행동 정렬, 도메인 지식, 가치 정렬 세 가지를 제공하며, 다루는 모든 기법은 이 셋 중 하나 이상을 최적화합니다.

LoRA와 QLoRA는 어떻게 다른가요?

LoRA는 전체 가중치 대신 작은 두 행렬을 주입해 약 0.25%의 매개변수만 학습하고 이후 병합합니다. QLoRA는 여기에 더해 기반 모델을 4비트로 양자화해 70억 모델을 6~8GB로 줄여, RTX 4090 같은 단일 소비자 GPU에서도 파인튜닝할 수 있게 합니다.

DPO와 GRPO는 언제 쓰나요?

DPO는 보상 모델 없이 선호/비선호 응답 쌍으로 학습해 주관적 품질이 필요할 때 적합합니다. GRPO는 수학·코드·형식 논리처럼 답을 객관적으로 검증할 수 있는 영역에서 답 묶음을 결정론적 검증기로 채점해 정답 여부만으로 학습합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗