AI VIDEO BRIEFING
LLM 파인튜닝 완전정복: 자기지도·지도·강화학습과 LoRA 효율화
GPT-3 같은 기반 모델을 특정 용도에 맞게 다듬는 파인튜닝의 개념과 세 가지 방식, 그리고 적은 파라미터로 학습하는 LoRA 기법을 예제 코드 흐름과 함께 정리했다.

핵심 메시지
쉽게 이해하기
프롬프트 엔지니어링은 모델을 그대로 활용하는 강력한 방법이지만, 일부 용도에서는 한계가 있다. 이때 한 걸음 더 나아가 기존 대형 언어 모델을 특정 작업에 맞게 다시 학습시키는 것이 파인튜닝이다. 발표자는 이를 '사전학습된 모델의 내부 파라미터(가중치·편향) 중 적어도 하나를 학습시키는 것'으로 정의한다.
기반 모델은 본질적으로 '다음 단어를 예측하는' 문서 완성기다. GPT-3에 '모델 파인튜닝 방법을 알려줘'라고 입력하면 답 대신 비슷한 질문들을 줄줄이 나열하는 식이다. 반면 같은 프롬프트를 지도 방식으로 파인튜닝한 모델에 주면 실제로 단계별 설명을 내놓는다. 이렇게 사용자의 의도에 '정렬된' 응답을 얻는 것이 파인튜닝의 핵심 효과다.
파인튜닝에는 세 가지 방식이 있다. 자기지도 학습은 용도에 맞게 선별한 텍스트로 다음 단어 예측을 학습시키는 방식이고, 지도 학습은 질문-답변 같은 입력-출력 쌍을 프롬프트 템플릿으로 가공해 학습시킨다. 강화학습은 OpenAI의 InstructGPT처럼 지도 파인튜닝 → 보상 모델 학습 → PPO 같은 알고리즘으로 강화하는 단계를 거친다.
파라미터를 갱신하는 방법도 세 가지다. 모든 파라미터를 재학습하면 비용이 폭발하고, 전이학습은 마지막 몇 개 층(헤드)만 학습한다. 가장 효율적인 방식은 파라미터 효율 파인튜닝으로, 대표 기법인 LoRA는 기존 가중치를 모두 동결한 채 학습 가능한 작은 행렬만 더한다.
LoRA의 핵심은 가중치 변화량 ΔW를 두 작은 행렬 B와 A의 곱으로 표현하는 데 있다. 1000×1000 행렬을 직접 학습하면 100만 개 파라미터가 필요하지만, 내재 랭크를 2로 두면 4천 개만 학습하면 된다. 영상의 실습에서는 6700만 파라미터의 DistilBERT를 LoRA로 감정 분석에 맞췄는데, 전체의 2% 미만인 약 100만 개만 학습해도 기반 모델보다 나은 분류 성능을 보였다.
주요 인사이트
- 성능뿐 아니라 비용 측면에서도 파인튜닝은 매력적이다. InstructGPT의 13억 파라미터 모델이 100배 큰 GPT-3보다 선호되는 응답을 냈다는 점은, 거대 범용 모델 없이도 특정 용도에서 좋은 성능을 낼 수 있음을 보여준다.
- 지도 파인튜닝에서도 모델은 여전히 '문서 완성기'이므로, 질문-답변 쌍을 그대로 넣지 않고 프롬프트 템플릿으로 감싸 학습 코퍼스로 변환하는 가공이 필요하다.
- 처음부터 모델을 학습하려면 수조 개 토큰이 필요하지만, 파인튜닝은 훨씬 적은 예시로 가능하다. 영상 실습은 단 1000개의 IMDb 리뷰만으로 진행됐다.
- 학습 손실이 줄어도 검증 손실이 늘면 과적합 신호다. 실무에서는 LoRA로 바로 가기 전에 전이학습으로 얼마나 근접하는지 먼저 확인하는 접근이 권장된다.
자주 묻는 질문
파인튜닝이란 정확히 무엇인가?
사전학습된 모델을 가져와 신경망 내부의 가중치나 편향 같은 파라미터를 특정 용도에 맞게 추가로 학습시키는 것이다. 발표자는 GPT-3를 원석 다이아몬드에, 파인튜닝된 모델을 가공된 다이아몬드 반지에 비유한다.
LoRA는 어떻게 학습 비용을 줄이는가?
기존 가중치 행렬을 모두 동결하고, 가중치 변화량을 두 개의 작은 행렬(B, A)의 곱으로 표현해 그 작은 행렬만 학습한다. 내재 랭크가 차원보다 훨씬 작기 때문에 학습 파라미터 수가 수십 배 줄어든다.
파인튜닝의 세 가지 방식은 무엇인가?
자기지도 학습(선별한 텍스트로 다음 단어 예측), 지도 학습(입력-출력 쌍을 템플릿으로 가공해 학습), 강화학습(보상 모델과 PPO 등으로 추가 정렬)이다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗