AI VIDEO BRIEFING

LLM 파인튜닝 방법론 총정리: 사전학습 vs 사후학습, PEFT, 강화 파인튜닝

파인튜닝이 무엇이고 언제 가능한지, LoRA·QLoRA 같은 PEFT와 RLHF·DPO 등 강화 파인튜닝까지 LLM 파인튜닝 방법론을 한 번에 정리한다.

출처: Aishwarya Srinivasan2026년 5월 18일AI 보조 요약

LLM 파인튜닝 완전 정리: LoRA·QLoRA부터 RLHF·DPO까지 영상 대표 이미지

핵심 메시지

파인튜닝은 사후 학습(post-training)의 대표적 형태로, 이미 방대한 지식으로 사전 학습된 모델을 특정 용도에 맞게 적응시키는 작업이다.
가중치가 공개된 오픈 웨이트 모델(Llama, Qwen, DeepSeek 등)은 직접 파인튜닝할 수 있지만, 폐쇄형 모델(GPT, Claude, Gemini)은 제공사의 파인튜닝 서비스를 써야 한다.
LoRA·QLoRA 같은 매개변수 효율적 파인튜닝(PEFT)은 작은 행렬만 학습해 연산·메모리·비용을 크게 줄인다.
강화 파인튜닝에는 검증 가능한 보상(RFT), RLHF, DPO 같은 방식이 있으며 정렬 목적과 과제 성격에 따라 골라 쓴다.

쉽게 이해하기

파인튜닝은 오늘날 AI 엔지니어에게 가장 많이 요구되는 기술 중 하나지만, API 호출 몇 번을 해 봤을 뿐 내부에서 무슨 일이 일어나는지 깊이 이해하는 사람은 많지 않다. 출발점은 사전 학습과 사후 학습의 구분이다. 사전 학습은 OpenAI·Anthropic·Meta·Google 같은 대형 연구소가 거대한 GPU 클러스터에서 수조 토큰으로 기반 모델을 만드는 과정이고, 사후 학습은 그 뒤에 일어나는 모든 것으로 파인튜닝이 가장 흔한 형태다.

전통적 머신러닝에서는 회사가 자체 데이터로 모델을 처음부터 학습하고 더 구체적인 데이터로 다시 튜닝하며 전체 파이프라인을 소유했다. 그러나 대규모 언어 모델 시대에는 '서비스로서의 모델(model as a service)'로 바뀌어, 연구소가 만든 사전 학습 모델을 API로 받아 특정 용도에 맞게 적응시킨다. 또한 전통 ML의 모델 파라미터가 수십만~수백만 수준이었다면, LLM은 소형도 수십억, 대부분의 팀이 다루는 모델은 100억~700억, 프런티어 모델은 수천억에서 1조 이상에 이른다. 그래서 1조 파라미터 모델의 일부만 갱신하는 것도 결코 가벼운 작업이 아니다.

파인튜닝이 가능한지는 가중치 접근 여부에 달려 있다. Llama·Mistral·Qwen·DeepSeek·GLM 같은 오픈 웨이트 모델은 가중치가 공개돼 직접 내려받아 파라미터를 바꾸고 배포할 수 있다. 반면 Anthropic의 Claude, OpenAI의 GPT, Google의 Gemini 같은 폐쇄형 모델은 가중치에 접근할 수 없어 자체 인프라로는 파인튜닝할 수 없고, 제공사의 파인튜닝 서비스에 데이터를 제출하면 그쪽 인프라에서 작업이 돌아가고 결과를 API로 받는다(내부 동작은 보이지 않는다).

첫 번째 큰 범주는 매개변수 효율적 파인튜닝(PEFT)이다. 700억 파라미터 모델을 더 잘 만들겠다고 모든 파라미터를 갱신할 필요는 대개 없다. LoRA(저랭크 적응)는 원본 가중치를 동결하고 특정 층에 작은 학습 가능 행렬을 주입해 그 작은 행렬만 학습한 뒤, 추론 시 동결된 가중치와 결합한다. 700억 대신 약 1억 파라미터만 학습하는 셈이라 연산·메모리·비용이 크게 줄어든다. QLoRA는 한 발 더 나아가 동결된 기반 모델을 4비트로 양자화한 위에서 LoRA를 돌려, 700억 파라미터 모델도 단일 H100에서 파인튜닝할 수 있게 한다. 반대로 풀 파인튜닝은 모든 파라미터를 갱신해 유연성과 품질은 가장 높지만 비용·시간·인프라 부담이 커서, PEFT로 품질이 부족한 드문 경우에만 선택한다.

또 다른 범주는 지난 1년간 폭발적으로 늘어난 강화 파인튜닝이다. 검증 가능한 보상을 쓰는 방식(RFT)은 수학·코딩처럼 답을 자동 검증할 수 있는 과제에서 여러 시도를 하게 하고 정답엔 보상, 오답엔 페널티를 줘 추론 능력을 키운다(사람 라벨러가 필요 없다). RLHF는 사람의 선호 데이터로 보상 모델을 학습한 뒤 PPO 같은 알고리즘으로 언어 모델을 유도하는 고전적 기법으로, 강력하지만 고품질 데이터와 복잡한 학습 루프가 필요하다. DPO는 보상 모델 없이 선호 쌍 데이터로 언어 모델을 직접 최적화해 더 쉽고 연산이 적게 든다. 무엇을 쓸지는 용도에 달려 있는데, 파인튜닝 전에 프롬프트·컨텍스트 최적화를 먼저 시도해 기준점을 잡고, 도메인 적응엔 QLoRA로 시작하며, 인간 선호 정렬엔 RLHF나 DPO, 자동 검증이 되는 추론 과제엔 RFT를 쓴다. 무엇보다 큰 난관은 데이터 품질과 평가다.

주요 인사이트

QLoRA는 동결된 기반 모델을 4비트로 양자화한 뒤 그 위에서 LoRA를 돌려, 700억 파라미터 모델도 단일 H100에서 파인튜닝할 수 있게 한다. 오늘날 오픈 소스 모델 파인튜닝의 기본 출발점으로 꼽힌다.
파인튜닝 전에 먼저 프롬프트와 컨텍스트를 최적화하면 상당한 성능 향상을 얻을 수 있고, 이후 파인튜닝이 실제로 얼마나 개선했는지 가늠하는 벤치마크 역할도 한다.
DPO는 별도의 보상 모델 없이 선호 쌍 데이터로 언어 모델을 직접 최적화해, RLHF보다 구현이 쉽고 연산이 적게 들어 오픈 소스 선호 튜닝의 기본 선택지가 됐다.
가장 큰 난관은 데이터 품질과 평가다. 나쁜 데이터로 파인튜닝하면 좋은 모델도 나빠지며, 명확한 평가셋과 지표가 없으면 파인튜닝이 무언가를 개선했는지조차 알 수 없다.

자주 묻는 질문

사전 학습과 사후 학습은 어떻게 다른가요?

사전 학습은 거대한 GPU 클러스터에서 수조 토큰으로 기반 모델을 만드는 과정으로 주로 대형 연구소가 수행하고, 사후 학습은 그 뒤에 이뤄지는 모든 것으로 파인튜닝이 가장 흔한 형태다.

폐쇄형(클로즈드 소스) 모델도 직접 파인튜닝할 수 있나요?

아니다. 가중치에 접근할 수 없어 자체 인프라로는 불가능하며, OpenAI·Google Vertex AI·Anthropic 등 제공사의 파인튜닝 서비스에 데이터를 제출하고 결과를 API로 받아야 한다.

LoRA와 QLoRA의 차이는 무엇인가요?

LoRA는 원본 가중치를 동결하고 특정 층에 작은 학습 가능 행렬을 주입해 그 행렬만 학습한다. QLoRA는 한 발 더 나아가 기반 모델을 4비트로 양자화한 위에서 LoRA를 적용해, 더 적은 자원으로 큰 모델을 파인튜닝한다.

검증 가능한 보상을 쓰는 강화 파인튜닝은 언제 사용하나요?

수학·코딩처럼 답을 자동으로 검증할 수 있는 과제에서 모델이 여러 번 시도하게 하고 정답엔 보상, 오답엔 페널티를 줘 추론 능력을 학습시킬 때 사용한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗