AI VIDEO BRIEFING

LLM 양자화 완전정리: FP16·INT8·4비트·GGUF로 모델 크기 80% 줄이기

수백억 파라미터 LLM을 소비자용 하드웨어에서 돌리게 해주는 양자화의 원리를, 부동소수점 표현부터 8비트·4비트 압축, 성능 비교, GGUF·llama.cpp까지 정리합니다.

출처: Adam Lucek2024년 11월 18일AI 보조 요약

LLM 양자화란? 거대 모델을 노트북에서 돌리는 8비트·4비트·GGUF 압축의 원리 영상 대표 이미지

핵심 메시지

양자화는 모델 가중치를 더 낮은 정밀도의 데이터 타입으로 표현해, 계산량과 메모리를 줄이고 거대 LLM을 소비자용 하드웨어에서 돌릴 수 있게 하는 기법이다.
FP16·BF16 가중치를 INT8(-127~127)이나 4비트로 압축해도 성능 손실이 크지 않은데, 개별 가중치의 정확한 값보다 가중치들 사이의 '관계'가 더 중요하기 때문이다.
10억 파라미터 모델 기준 8비트는 원본의 약 30%, 4비트는 약 20% 크기로 줄었고 VRAM 요구량도 최대 80%까지 감소했지만, 퍼플렉서티는 소폭만 나빠졌다.
GGUF는 게오르기 게르가노프의 llama.cpp용 단일 파일 포맷으로, GPU 없이 CPU·시스템 램에서도 양자화 모델을 돌릴 수 있어 LM Studio·Ollama에서 널리 쓰인다.

쉽게 이해하기

거대 언어 모델은 파라미터가 수백억 개에 이른다. 예컨대 엔비디아의 라마 3.1 네모트론은 약 706억 파라미터로, 약 5GB짜리 세이프텐서 파일이 30개나 된다. 그런데 같은 모델의 4비트 비츠앤바이츠 버전은 파일이 8개로 줄어든다. 이 둘 사이에서 일어난 변환이 바로 양자화다. 넓게 보면 양자화는 큰 집합의 값을 더 작은 집합의 값으로 대응시키는 것이고, 딥러닝에서는 가중치와 활성값을 더 낮은 정밀도로 표현해 추론의 계산·메모리 비용을 줄이는 기법이다.

이를 이해하려면 모델 가중치가 어떻게 저장되는지 알아야 한다. 컴퓨터는 0과 1, 즉 2진수로 동작하므로 가중치도 부동소수점으로 저장된다. 부동소수점은 2진수판 과학적 표기법으로 볼 수 있다. 표준인 IEEE 754 단정밀도 32비트 부동소수점은 부호 1비트, 지수 8비트, 가수(유효숫자) 23비트로 구성되며, 지수에는 127의 바이어스를 더해 큰 양수와 작은 소수를 모두 표현한다. 숫자 하나에 32비트, 즉 4바이트가 드는데 이것이 수십억 개 쌓이면 엄청난 용량이 된다.

그래서 많은 모델은 32비트 대신 FP16(반정밀도: 부호 1, 지수 5, 가수 10비트)이나 BF16(브레인 플로트: 부호 1, 지수 8, 가수 7비트)으로 저장된다. 양자화는 여기서 한발 더 나아가 FP16을 INT8(-127~127 범위)로, 심지어 4비트(표현 가능한 값이 16개)로 압축한다. 이렇게 거칠게 줄여도 성능이 크게 떨어지지 않는 이유는, 추론에서 중요한 것이 각 가중치의 정확한 절대값이 아니라 가중치들 사이의 상대적 차이·관계이기 때문이다.

강사 애덤 루섹은 트랜스포머의 비츠앤바이츠 패키지로 직접 비교한다. BitsAndBytesConfig에 load_in_8bit이나 load_in_4bit만 넣으면 된다. 10억 파라미터 라마 3.2 모델 기준, 원본은 약 4.9GB지만 INT8은 약 1.5GB, 4비트는 약 1GB로 줄었고, VRAM도 원본 5GB에서 8비트 1.7GB, 4비트 1.2GB로 약 80% 감소했다. '언어 모델이란 무엇인가'라는 질문에 세 버전 모두 거의 구별하기 어려운 좋은 답을 냈고, 다음 토큰 예측의 확신도를 재는 퍼플렉서티는 원본 3.04, 8비트 3.48, 4비트 3.46으로 소폭만 나빠졌다.

마지막으로 강사는 GGUF 포맷을 소개한다. GGUF는 llama.cpp(라마 C++)를 만든 게오르기 게르가노프가 개발한 단일 파일 포맷으로, 모델을 하나의 파일로 효율적으로 저장·서빙한다. 8비트부터 2비트까지 다양한 양자화 방식을 제공하며, 인기 있는 Q4_K_M은 어텐션·피드포워드 절반에 6비트, 나머지에 4비트 K-퀀트를 적용한다. convert_hf_to_gguf 스크립트로 변환한 뒤 양자화하면 약 800MB로 줄고, GPU 없이 시스템 램만으로도 잘 동작해 LM Studio나 Ollama에서 소비자용 하드웨어로 모델을 돌릴 수 있다.

주요 인사이트

양자화의 핵심 통찰은 '개별 가중치의 정확한 값보다 가중치들 사이의 관계가 더 중요하다'는 점이다. 그래서 정밀도를 낮춰도 성능이 크게 무너지지 않는다.
FP16, BF16, FP32는 부호·지수·가수에 배분하는 비트 수가 달라 표현 범위와 정밀도가 다르다. BF16은 지수에 8비트를 줘 FP32만큼 넓은 범위를 표현하되 정밀도는 양보한다.
10억 파라미터 모델에서 8비트·4비트 양자화는 크기를 각각 약 30%·20%로, VRAM을 최대 80%까지 줄이면서도 퍼플렉서티 저하는 소폭에 그쳐, 12~24GB VRAM의 소비자용 GPU에서 큰 이점을 준다.
4비트 가중치는 부호 없는 INT8 한 칸에 두 개씩 담아 저장하는 식의 구현 트릭으로 추가 효율을 얻는다.
GGUF와 llama.cpp는 GPU 없이 CPU·시스템 램만으로 양자화 모델을 단일 파일로 돌릴 수 있게 해, Ollama·LM Studio 같은 소비자용 도구의 기반이 된다.

자주 묻는 질문

양자화를 하면 모델 성능이 많이 떨어지지 않나요?

생각보다 적게 떨어집니다. 추론에서 중요한 것은 각 가중치의 정확한 절대값이 아니라 가중치들 사이의 상대적 관계이기 때문입니다. 영상 실험에서 10억 파라미터 모델의 퍼플렉서티는 원본 3.04에서 8비트 3.48, 4비트 3.46으로 소폭만 나빠졌습니다.

8비트·4비트 양자화로 얼마나 가벼워지나요?

10억 파라미터 라마 3.2 기준, 모델 크기가 원본 약 4.9GB에서 8비트 1.5GB, 4비트 1GB로 줄었고, VRAM 요구량은 5GB에서 1.7GB(8비트)·1.2GB(4비트)로 약 80% 감소했습니다.

GGUF 포맷은 무엇이고 왜 인기가 많나요?

GGUF는 llama.cpp 개발자 게오르기 게르가노프가 만든 단일 파일 포맷으로, 모델을 한 파일에 효율적으로 담아 GPU 없이 CPU와 시스템 램만으로도 돌릴 수 있게 합니다. 그래서 Ollama, LM Studio 같은 소비자용 도구에서 널리 쓰입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗