AI VIDEO BRIEFING

초소형 LLM 만들기, 양자화로 AI 모델 압축하는 원리와 한계

FP16을 4비트, 1비트까지 줄이는 양자화로 63.66MB짜리 LLM을 CPU에서 78토큰/초로 돌린 실험. 모델 경량화가 왜 필요하고 어디까지 무너지는지 유쾌하게 짚었다.

출처: Codeically 2025년 9월 5일AI 보조 요약

63MB짜리 초소형 LLM 만들기: 양자화로 AI를 극한까지 압축하면 생기는 일 영상 대표 이미지

핵심 메시지

최신 대형 언어 모델은 실행에만 막대한 하드웨어가 필요해, 연구자들은 모델을 줄이는 방향으로 경량화를 시도한다.
양자화는 가중치를 저장하는 비트 수를 FP16(16비트)에서 4비트, 극단적으로는 1비트까지 줄여 메모리와 크기를 아끼는 기법이다.
70억 파라미터 모델은 70억 개의 숫자이며 FP16에서는 약 14GB의 VRAM이 필요하지만, 비트를 줄이면 이 요구가 크게 줄어든다.
FP8은 정신 나가지 않은 사람들이 멈추는 스윗스팟으로 성능 저하가 크지 않으면서 메모리를 75% 아낀다.
실험 결과 파일 크기 63.66MB에 CPU만으로 초당 78토큰을 내는 모델이 나왔지만, 1+1도 제대로 답하지 못할 만큼 심하게 망가졌다.

쉽게 이해하기

영상은 최신 AI 모델을 실행하는 비용이 얼마나 큰지를 과장 섞어 꼬집으며 시작한다. 오픈소스 모델을 내려받아 이름을 붙일 수는 있어도 실제로 돌리려면 어마어마한 하드웨어가 든다는 것이다. 연구자들이 거대한 모델을 축소해도 하드웨어 요구를 90% 줄인 다이어트 버전조차 여전히 값비싼 그래픽카드를 요구하고, 더 작은 70억·15억 파라미터 모델은 대화 품질이 크게 떨어진다.

여기서 등장하는 것이 양자화다. 보통 AI 가중치는 FP16, 즉 숫자 하나당 16비트로 저장된다. 각 가중치가 하나의 파라미터이므로 70억 파라미터 모델은 문자 그대로 70억 개의 숫자이고, 이는 대략 14GB로 괜찮은 성능을 내려면 GPU 메모리에 올라가 있어야 한다. 8GB 그래픽카드로는 가중치를 계속 메모리에 넣고 빼는 오프로딩을 해야 하는데, 이는 재료 하나 살 때마다 마트에 다녀오며 요리하는 것과 같아 작동은 해도 몹시 번거롭다.

해법은 비트 수를 줄이는 것이다. 16비트 대신 4비트를, 혹은 극단적으로 1비트만 쓰면 어떻게 될까. 대가는 정밀도다. FP16은 3.141과 3.142 같은 미세한 차이를 표현하지만, FP8은 0.125 단위의 덩어리로, 4비트는 모든 것이 정수가 되어 마치 페인트 롤러로 모나리자를 그리는 셈이 된다. 대부분의 제정신인 사람은 성능 저하가 크지 않고 메모리를 75% 아끼는 FP8에서 멈춘다.

제작자는 여기서 더 나아간다. 가중치를 뭉갠 뒤 커스텀 데이터셋으로 파인튜닝하는데, 그 데이터가 순수 Shrek 인용구와 인터넷 카피파스타, 트위치 명언을 긁어모은 것이다. 어차피 속도를 위해 지능을 희생할 바에는 기억에 남게 만들자는 것이다. 이어 Hugging Face의 GPT-2 토크나이저와 모델을 불러와 최대 길이 128로 텍스트를 토큰으로 변환하고 병렬 처리로 데이터셋을 준비한 뒤, llama.cpp를 힘겹게 컴파일해 학습을 진행한다.

첫 결과는 가중치 절반을 수동으로 0으로 만든 탓에 의미 없는 문장만 쏟아냈다. 이 과정을 빼고 다시 돌리자 양자물리학을 설명해 달라는 요청에 이론물리학의 새 장이라는 그럴듯한 문장을 내놓지만 곧 니트로메탄 같은 단어로 환각에 빠진다. 1+1이 무엇이냐는 물음에도 제대로 답하지 못한다. 최종 산출물은 파일 크기 63.66MB, 초당 78토큰, 그것도 CPU만으로 동작하는 극한 압축 모델이다.

주요 인사이트

모델 크기의 근원은 파라미터 수와 비트 수의 곱이다. 70억 파라미터 × 16비트 ≈ 14GB라는 계산이 왜 대형 모델이 고가의 GPU 메모리를 요구하는지 직관적으로 보여준다.
양자화는 정밀도와 자원의 맞교환이다. FP16→FP8→4비트로 갈수록 표현할 수 있는 숫자의 해상도가 거칠어져, 메모리는 아끼지만 모델의 정확도는 급격히 무너진다.
FP8이 실용적 타협점으로 꼽히는 이유는 성능 저하가 크지 않으면서 메모리를 75% 절약하기 때문이다. 그 아래로 내려가는 것은 실용성보다 극한 실험의 영역이다.
경량화의 대가는 명확하다. 63.66MB, CPU에서 초당 78토큰이라는 놀라운 효율을 얻는 대신, 1+1조차 못 맞추고 대화마다 열병 같은 환각을 보이는 모델이 된다. 속도·크기와 지능 사이의 트레이드오프를 극단적으로 드러낸 사례다.

자주 묻는 질문

양자화란 무엇인가?

AI 가중치를 저장하는 비트 수를 줄이는 기법이다. 보통 숫자 하나당 16비트를 쓰는 FP16 대신 4비트나 극단적으로 1비트를 써서 모델의 메모리 사용량과 크기를 줄인다.

70억 파라미터 모델은 왜 메모리를 많이 쓰나?

70억 파라미터는 문자 그대로 70억 개의 숫자이고, FP16에서는 각 숫자가 16비트를 차지해 대략 14GB에 이른다. 괜찮은 성능을 내려면 이 용량이 GPU 메모리에 올라가 있어야 한다.

비트를 줄이면 무엇을 잃는가?

정밀도를 잃는다. FP16은 3.141과 3.142 같은 미세한 차이를 표현하지만 FP8은 0.125 단위로, 4비트에서는 모든 값이 정수가 되어 표현이 훨씬 거칠어진다.

최종적으로 만든 모델의 성능은 어땠나?

파일 크기 63.66MB에 CPU만으로 초당 78토큰을 낼 만큼 빠르고 작았지만, 양자물리학 설명은 곧 환각으로 무너지고 1+1조차 제대로 답하지 못할 정도로 심하게 망가진 상태였다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗