AI VIDEO BRIEFING

LLM 파인튜닝 입문: LoRA·DPO로 탈옥에 강한 전용 에이전트 만들기

프롬프트 엔지니어링과 파인튜닝의 본질적 차이, LoRA로 소비자용 하드웨어에서도 가능한 효율적 학습, DPO 정렬까지 6단계 실습으로 정리한 입문 가이드.

출처: KodeKloud2026년 4월 29일AI 보조 요약

프롬프트로는 부족할 때: LoRA로 직접 해보는 LLM 파인튜닝 입문 영상 대표 이미지

핵심 메시지

프롬프트는 모델에 '지시'할 뿐이라 무시되거나 탈옥(jailbreak)될 수 있지만, 파인튜닝은 모델의 가중치 자체를 바꿔 행동을 새겨 넣는다.
우리가 쓰는 ChatGPT·Gemini도 사실은 채팅용으로 파인튜닝된 모델이므로, 채팅 외 특정 역할의 에이전트가 필요하면 파인튜닝이 더 나은 선택일 수 있다.
LoRA는 수십억 개의 원본 파라미터를 동결하고 작은 어댑터만 학습해, 학습 대상 파라미터를 99.7%까지 줄여 개인용 하드웨어에서도 파인튜닝을 가능하게 한다.
파인튜닝이 '어떻게 행동할지'를 가르친다면, RAG는 '무엇을 알아야 할지'를 끌어온다 — 둘은 역할이 다르다.
DPO(직접 선호 최적화)는 선호/비선호 응답 쌍으로 모델을 사람이 선호하는 방향으로 정렬하는, RLHF보다 단순한 대안이다.

쉽게 이해하기

영상은 GPT-4·Claude·Gemini 같은 대형 모델이 본질적으로 '만능 일반가'로 설계됐다는 역설에서 출발한다. 그러나 JSON으로만 응답하는 API, 캐릭터를 절대 깨지 않는 드라이브스루 주문 봇, 중세 영어로 말하는 게임 NPC처럼 일관성이 핵심인 작업에서는 일반가 모델만으로는 부족하다.

왜 프롬프트 엔지니어링으로 해결하지 않느냐는 질문에 강연자는 두 가지 한계를 짚는다. 첫째, 프롬프트는 해킹될 수 있어 사용자가 시스템 프롬프트를 덮어쓰는 명령을 주입할 수 있다. 둘째, 프롬프트는 모델의 근본 동작을 바꾸지 못하므로 '모델이 지시를 따라주길 바라는' 수준에 머문다. 파인튜닝은 파라미터 자체를 재학습해 도메인 지식과 행동을 직접 심는다.

실습에서는 주제를 벗어나지 않고 탈옥에도 버티는 'TacoBot' 드라이브스루 에이전트를 만든다. 이는 GPT-3 같은 기반 모델을 ChatGPT로 바꾼 것과 같은 기법으로, 약 30~45분이 걸린다. 과정은 ①프롬프트의 한계 확인 ②학습 데이터 준비 ③LoRA 설정 ④학습 ⑤평가 ⑥정렬의 6단계로 구성된다.

LoRA 설정 단계에서는 rank를 8, alpha를 16, 대상 모듈을 Q_proj·V_proj로 지정한다. 그 결과 1억 3,400만 개 전체 파라미터 대신 약 46만 개(99.7% 감소)만 학습하게 되고, 필요한 메모리는 약 1,500MB에서 5MB 수준으로 줄어든다. 학습은 CPU에서 약 5~8분이 걸리고, 저장되는 어댑터 크기는 약 2MB로 500MB짜리 전체 모델과 대비된다.

마지막으로 DPO를 다룬다. '20분째 음식을 기다리고 있다'는 고객 상황에 대해 친절하고 사과하는 '선호 응답'과 무례한 '비선호 응답'을 쌍으로 만들어, 모델이 도움이 되고 해롭지 않은 방향으로 정렬되도록 한다. 강연자는 이를 RLHF의 더 단순한 대안으로 소개한다.

주요 인사이트

탈옥 저항성은 보안 관점에서 파인튜닝의 핵심 가치다. 행동이 가중치에 새겨지면 '지시를 무시하라'는 주입 공격으로 우회하기가 훨씬 어려워진다.
LoRA의 핵심은 원본 가중치를 동결하고 위에 작은 어댑터 행렬만 학습한다는 점이다. 이 덕분에 데이터센터가 아니라 집의 소비자용 장비에서도 파인튜닝이 현실적인 선택지가 된다.
파인튜닝과 RAG는 경쟁 관계가 아니라 보완 관계다. 행동·말투의 일관성은 파인튜닝이, 최신·외부 지식의 주입은 RAG가 담당한다.
현대적 채팅 모델 자체가 RLHF로 파인튜닝된 결과물이라는 점은, 특정 역할 에이전트를 만들 때 같은 기법을 재현할 수 있음을 시사한다.
DPO는 좋은 응답과 나쁜 응답의 '쌍'만 있으면 되므로, 사람이 점수를 매기는 복잡한 RLHF보다 정렬을 단순화한다.

자주 묻는 질문

프롬프트 엔지니어링과 파인튜닝의 핵심 차이는 무엇인가요?

프롬프트는 모델에게 무엇을 하라고 '지시'하는 것으로 무시될 수 있는 제안에 가깝습니다. 반면 파인튜닝은 모델의 가중치(파라미터)를 직접 수정해 행동을 모델의 사고방식에 심으므로, 우회하기가 훨씬 어렵습니다.

LoRA는 무엇을 동결하고 어떤 효과를 주나요?

LoRA는 기반 모델의 원본 가중치를 모두 동결하고, 그 위에 추가한 작은 어댑터 행렬만 학습합니다. 영상의 실습에서는 학습 파라미터가 1억 3,400만 개에서 약 46만 개로 99.7% 줄었고, 메모리도 약 1,500MB에서 5MB 수준으로 감소했습니다.

DPO는 무엇을 최적화하나요?

DPO(직접 선호 최적화)는 사람이 선호하는 응답을 향해 모델을 학습시켜, 도움이 되고(helpful) 해롭지 않으며(harmless) 정직한(honest) 응답을 생성하도록 정렬합니다. 선호/비선호 응답 쌍을 사용하는 RLHF의 더 단순한 대안입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗