AI VIDEO BRIEFING

LLM 파인튜닝과 모델 병합 완벽 정리: 단계·기법·하이퍼파라미터

사전학습부터 SFT·선호 정렬까지 LLM 학습 단계와 LoRA·QLoRA, SLERP·DARE 같은 파인튜닝·모델 병합 기법을 한눈에 정리했다.

출처: AI Engineer2024년 9월 25일AI 보조 요약

LLM 파인튜닝과 모델 병합 총정리: 언제, 어떻게 모델을 길들일까 영상 대표 이미지

핵심 메시지

LLM 학습은 사전학습(베이스 모델), 지도 파인튜닝(SFT), 선호 정렬(챗 모델)의 세 단계로 이뤄진다.
파인튜닝은 만능이 아니라, 프롬프트 엔지니어링으로 충분하지 않을 때 탄탄한 평가 체계를 갖추고 선택해야 한다.
좋은 SFT 데이터셋의 조건은 정확성, 다양성, 복잡성이며 합성 데이터 활용도 충분히 유효하다.
SFT 기법은 전체 파인튜닝, LoRA, QLoRA 순으로 효율은 높아지지만 성능과의 트레이드오프가 있다.
모델 병합은 GPU 없이도 여러 파인튜닝 모델의 가중치를 합쳐 뛰어난 결과를 내며, 오픈 리더보드 상위권을 병합 모델이 차지한다.

쉽게 이해하기

발표자는 LLM 학습 생애주기를 세 단계로 정리한다. 먼저 사전학습 단계에서 대량의 텍스트로 다음 토큰을 예측하도록 훈련하면 베이스 모델이 나온다. 이 베이스 모델은 질문을 던지면 답을 하기보다 질문을 이어서 완성하려 하기 때문에, 질문-답변 쌍을 학습시키는 지도 파인튜닝(SFT) 단계를 거쳐 비로소 지시를 따르게 된다. 마지막으로 인간 선호를 반영하는 선호 정렬 단계를 거치면 흔히 말하는 챗 모델이 된다.

파인튜닝을 언제 써야 하는지에 대해서는, 가능하면 프롬프트 엔지니어링부터 시작하라고 조언한다. 정확도·비용·지연 등 여러 지표로 구성된 견고한 평가 체계를 갖춘 뒤 “이 정도면 충분한가”를 묻고, 충분하면 거기서 끝낸다. 충분하지 않다면 질문-답변 쌍으로 된 지시 데이터셋을 만들 수 있는지 따지고, 만들 수 없다면 프로젝트를 다시 설계하라는 신호로 본다. 기술적 이유 외에도 a16z 보고서를 인용해, 기업이 오픈소스를 원하는 핵심 이유가 통제권과 커스터마이즈 가능성, 즉 파인튜닝에 있다고 설명한다.

SFT 데이터셋의 품질은 세 가지로 요약된다. 출력이 사실에 맞아야 하는 정확성, 가능한 한 여러 주제와 문체를 담는 다양성, 그리고 사고의 연쇄(Chain of Thought)처럼 모델이 추론하도록 강제하는 복잡성이다. 데이터는 오픈소스 데이터셋에서 출발해 조합한 뒤, 중복 제거와 규칙 기반·보상 모델·LLM 심사 같은 품질 필터를 적용하고, 클러스터링으로 탐색해 개선 아이디어를 얻어 다시 생성하는 순환을 권한다. 대부분의 SFT 데이터가 프런티어 모델로 만든 합성 데이터라는 점도 자연스럽다고 본다.

실제 파인튜닝 기법으로는 전체 파인튜닝이 성능은 가장 좋지만 비용이 크고, LoRA는 사전학습 가중치를 동결하고 어댑터 행렬만 학습해 더 빠르며, QLoRA는 가중치를 4비트로 양자화해 VRAM을 크게 줄이는 대신 성능 저하를 감수한다. 하이퍼파라미터 중에서는 학습률이 가장 중요하며, 손실이 폭발하기 직전까지 높였다가 낮추는 식으로 찾으라고 권한다. 에폭 수, 시퀀스 길이(배치 크기·VRAM과의 트레이드오프), 배치 크기 등도 함께 다룬다.

후반부 주제인 모델 병합은 서로 다른 파인튜닝 모델의 가중치를 합치는 기법으로, GPU가 필요 없고 결과가 뛰어나 오픈 LLM 리더보드 7B급 상위권을 병합 모델이 차지한다고 소개한다. mergekit 라이브러리를 추천하며 대표 기법으로 두 모델만 합치는 SLERP, 가지치기로 중복을 줄여 여러 모델을 합치는 TIES·DARE, 서로 다른 LLM의 층을 이어 붙이는 패스스루(자기 병합), 그리고 여러 파인튜닝 모델의 피드포워드 층을 모아 라우터를 붙이는 ‘프랑켄 MoE’를 든다.

주요 인사이트

파인튜닝은 출발점이 아니라 마지막 수단에 가깝다. 프롬프트 엔지니어링으로 충분한지 평가하는 체계를 먼저 갖추는 것이 비용과 시행착오를 줄인다.
데이터 품질을 정확성·다양성·복잡성으로 명료하게 나눈 점이 핵심이다. 특히 복잡성은 단순 QA가 아니라 추론을 강제하는 과제를 통해 확보한다.
LoRA에서 QLoRA로 갈수록 자원 효율은 좋아지지만 성능 저하라는 대가가 따른다. 어떤 자원 제약 아래에서 무엇을 포기할지가 선택의 본질이다.
모델 병합은 GPU 없이 오픈소스 커뮤니티의 결과물을 재활용해 고품질 모델을 만든다는 점에서 비용 대비 효과가 크다. 발표자는 성능을 높이려면 MoE보다 SLERP·DARE가 낫다고 본다.
층을 단순히 반복해 만든 모델이 창의적 글쓰기에 강했던 사례처럼, 병합은 직관에 어긋나면서도 효과적인 결과를 낳아 아직 탐구할 여지가 많다.

자주 묻는 질문

LLM 학습은 어떤 단계로 이뤄지나요?

사전학습으로 다음 토큰 예측을 배워 베이스 모델을 만들고, 질문-답변 쌍으로 지도 파인튜닝(SFT)을 해 지시를 따르게 한 뒤, 인간 선호를 반영하는 선호 정렬을 거쳐 챗 모델이 됩니다.

LoRA와 QLoRA는 어떻게 다른가요?

LoRA는 사전학습 가중치를 동결하고 각 층에 어댑터 행렬만 추가해 학습하므로 빠르지만 모델 전체를 16비트로 올려야 합니다. QLoRA는 사전학습 모델을 4비트로 양자화해 VRAM 사용량을 줄이는 대신 성능이 다소 저하되는 트레이드오프가 있습니다.

모델 병합이란 무엇이고 왜 유용한가요?

서로 다른 파인튜닝 모델의 가중치를 합치는 기법으로 GPU가 필요 없고 결과가 뛰어납니다. 발표에서는 오픈 LLM 리더보드 7B급 상위 모델 대부분이 병합 모델이라고 소개하며, SLERP·TIES·DARE·패스스루·MoE 같은 기법과 mergekit 라이브러리를 권합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗