AI VIDEO BRIEFING

LLM 파인튜닝 양자화·LoRA 이론 완전정복: Llama 2·Gemma 실습 강의

FP32에서 저비트로 가는 양자화의 원리, 캘리브레이션과 대칭/비대칭 변환, LoRA 어댑터까지 — Llama 2와 Gemma로 실습하는 파인튜닝 크래시 코스의 핵심 정리.

출처: freeCodeCamp.org2024년 5월 21일AI 보조 요약

양자화부터 LoRA까지: LLM 파인튜닝의 이론을 제대로 파고드는 무료 강의 영상 대표 이미지

핵심 메시지

양자화는 가중치를 FP32(완전 정밀도)처럼 높은 메모리 형식에서 더 낮은 비트 형식으로 변환해, 거대한 LLM을 더 적은 메모리로 다룰 수 있게 하는 기술이다.
LLM도 결국 Transformer 형태의 신경망이므로, 70억·700억 개에 이르는 파라미터(가중치)를 어떻게 저장하느냐가 메모리 사용을 좌우한다.
양자화에는 대칭(symmetric)·비대칭(asymmetric) 방식과 캘리브레이션 과정이 있으며, 사후 학습 양자화(PTQ)와 양자화 인식 학습(QAT)으로 모드가 나뉜다.
LoRA는 원본 가중치를 동결하고 낮은 rank의 어댑터만 학습해, 전체 모델을 다시 학습하지 않고도 효율적으로 파인튜닝한다.
강의는 이론적 직관과 실습을 함께 제공하며, 허깅페이스의 오픈소스 Llama 2와 구글 Gemma로 자신만의 커스텀 데이터셋 파인튜닝을 다룬다.

쉽게 이해하기

Krish Naik이 진행하는 이 크래시 코스는 파인튜닝을 '이론'과 '실습' 양면으로 다룬다. 강사는 이전 영상에서 Llama 2를 커스텀 데이터셋으로 파인튜닝하는 코드를 보여줬는데, 그 코드 뒤의 깊은 이론적 직관을 설명해 달라는 요청이 많아 이번 강의를 마련했다고 밝힌다.

첫 주제는 모델 양자화다. 양자화의 정의는 '높은 메모리 형식에서 낮은 메모리 형식으로의 변환'이다. 신경망의 가중치는 보통 행렬 형태이고, 각 값은 메모리에 32비트(FP32, 완전/단일 정밀도)로 저장된다. 예컨대 7.23 같은 값이 32비트로 표현되는데, 파라미터가 수십억 개로 늘면 이 저장 비용이 막대해진다.

그래서 Llama 2 파인튜닝 코드에서 정밀도와 기반 모델 관련 파라미터를 설정하며 더 높은 비트에서 낮은 비트로 모델을 내려받았던 것이라고 연결한다. 강의는 완전 정밀도와 반정밀도(half precision) 같은 데이터 타입, 즉 데이터가 메모리에 저장되는 방식을 함께 설명한다.

이어 캘리브레이션 개념과 대칭/비대칭 양자화, 그리고 양자화의 두 가지 모드 — 사후 학습 양자화(post-training quantization)와 양자화 인식 학습(quantization-aware training) — 를 다룬다. 강사는 이들이 모두 파인튜닝 기법에서 중요하며 생성형 AI 면접의 단골 주제라고 강조한다.

강의 전반은 양자화에서 시작해 LoRA와 어댑터, rank 같은 개념으로 이어지고, 허깅페이스 오픈소스 모델(Llama 2)과 구글 Gemma로 커스텀 데이터셋 파인튜닝까지 단계적으로 진행한다. 강사는 많은 생성형 AI 직무가 바로 이 파인튜닝 역량을 요구한다고 말한다.

주요 인사이트

양자화의 출발점은 '가중치를 어떤 정밀도로 저장하느냐'다. FP32에서 더 낮은 비트로 내리면 메모리와 연산 비용을 크게 줄일 수 있다.
LLM을 특별한 무언가가 아니라 Transformer/신경망으로 환원해 보면, 파라미터 저장 형식이 곧 자원 소비의 핵심임이 분명해진다.
양자화는 단순 변환이 아니라 캘리브레이션이 필요한 과정이며, 정밀도 손실을 관리하기 위한 대칭/비대칭 방식과 PTQ·QAT 모드를 이해해야 한다.
이론(양자화·LoRA의 수학적 직관)과 실습(Llama 2·Gemma 코드)을 함께 익혀야 커스텀 데이터셋 파인튜닝을 실제 문제에 적용할 수 있다.
파인튜닝과 그 뒤의 기법(양자화·LoRA)은 생성형 AI 채용에서 자주 묻는 주제이므로, 개념을 말로 설명할 수 있을 만큼 익혀 두는 것이 유리하다.

자주 묻는 질문

양자화란 무엇인가요?

양자화는 모델의 가중치를 더 높은 메모리 형식(예: 32비트 FP32, 완전 정밀도)에서 더 낮은 비트 형식으로 변환하는 것을 말합니다. 파라미터가 수십억 개에 달하는 LLM을 더 적은 메모리로 저장·실행할 수 있게 해 줍니다.

FP32는 무슨 뜻인가요?

FP32는 부동소수점 32비트, 즉 완전 정밀도(또는 단일 정밀도)를 의미합니다. 신경망의 각 가중치 값(예: 7.23)이 메모리에 32비트로 저장되는 기본 형식으로, 강의는 이를 반정밀도 등 더 낮은 비트와 대비해 설명합니다.

이 강의에서는 어떤 모델로 실습하나요?

허깅페이스의 오픈소스 모델인 Llama 2와 구글의 Gemma 모델을 사용합니다. 강의는 양자화·LoRA의 이론적 직관을 먼저 다룬 뒤, 자신만의 커스텀 데이터셋으로 파인튜닝하는 실습을 단계별로 진행합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗