AI VIDEO BRIEFING

양자화(Quantization)란 — AI 모델을 가볍게 만들어 엣지 기기에 올리는 법

휴대폰·마이크로컨트롤러 같은 엣지 기기에 무거운 딥러닝 모델을 올리기 위해 모델 크기를 줄이는 양자화 기법을, 사후 양자화와 양자화 인식 학습 두 방식으로 나눠 설명합니다.

출처: codebasics2021년 8월 14일AI 보조 요약

거대한 AI 모델을 휴대폰에 담는 법 — 양자화(Quantization) 쉽게 이해하기 영상 대표 이미지

핵심 메시지

휴대폰·마이크로컨트롤러 같은 엣지 기기는 메모리가 적어 큰 모델을 그대로 올리기 어렵다.
양자화는 가중치의 정밀도를 낮춰(예: float을 int8로) 모델 크기를 줄이는 기법이다.
정밀도를 8바이트에서 1바이트로 줄이면 메모리가 크게 절약되고 추론 속도도 빨라진다.
사후 양자화는 빠르지만 정확도가 떨어질 수 있고, 양자화 인식 학습은 손이 더 가지만 정확도가 낫다.
텐서플로 모델을 엣지에 올리려면 반드시 TFLite 변환 단계를 거쳐야 한다.

쉽게 이해하기

머신러닝 모델을 클라우드의 큰 서버에서 돌릴 때는 크기가 문제되지 않지만, 휴대폰이나 핏빗 같은 웨어러블, 마이크로컨트롤러에 올리려면 모델을 최적화해 크기를 줄여야 한다. 이런 작은 기기를 통칭 엣지 기기라 부르며, 메모리가 수 메가바이트에 불과한 경우도 많다.

신경망 모델을 저장한다는 것은 결국 수많은 가중치를 저장하는 일이다. 이 가중치는 보통 float64(8바이트)나 float32(4바이트) 같은 부동소수점으로 저장되는데, 양자화는 이 숫자들을 더 적은 바이트로 표현하도록 정밀도를 낮추는 작업이다. 예컨대 4바이트 실수를 int8(1바이트) 정수로 근사하면 저장 공간이 크게 줄어든다.

양자화는 숫자를 아무렇게나 바꾸는 것이 아니라 정해진 알고리즘에 따라 근삿값을 정한다. 강연자는 세부 알고리즘은 논문에 맡기고, 핵심은 '각 가중치의 정밀도를 낮춰 전체 모델 크기를 줄이는 것'이라고 정리한다. float64를 float16(2바이트)으로 줄이는 것도 양자화에 해당한다.

텐서플로에는 두 가지 방식이 있다. 사후 양자화는 이미 학습된 모델을 TFLite 변환 과정에서 양자화하는 방법으로 빠르지만 정확도가 떨어질 수 있다. 양자화 인식 학습은 모델에 양자화를 적용한 뒤 다시 미세 조정 학습을 돌리는 방식으로, 마치 전이 학습처럼 손이 더 가지만 정확도를 더 잘 지킨다.

실습에서는 약 1MB였던 손글씨 숫자 분류 모델이 TFLite 변환만으로 312KB로 줄고, 양자화를 적용하자 약 82KB로 4분의 1까지 작아졌다. 양자화 인식 학습으로는 80KB 수준에 더해 정확도까지 더 좋게 유지됐다. 어떤 방식이든 엣지 배포에는 TFLite 변환이 빠질 수 없다.

주요 인사이트

양자화의 본질은 '정밀도를 낮춰 크기를 줄이는 것'이다. 반드시 정수로 바꿔야 하는 것은 아니며 float16처럼 더 작은 부동소수점도 가능하다.
모델이 작아지면 메모리가 적은 마이크로컨트롤러에도 올릴 수 있고, 추론(예측) 속도도 빨라진다.
사후 양자화는 한 줄의 최적화 옵션만 추가하면 될 만큼 간단하지만, 정확도 손실이라는 대가가 따른다.
정확도가 중요하다면 양자화 인식 학습으로 적은 에폭만 미세 조정해도 더 나은 성능을 얻을 수 있다.
가중치만 양자화하는 것을 넘어 활성값까지 양자화하는 '완전 정수 양자화'를 적용하면 효과를 더 키울 수 있다.

자주 묻는 질문

양자화(Quantization)란 무엇인가요?

딥러닝 모델의 가중치를 더 적은 바이트로 저장하도록 정밀도를 낮춰 모델 크기를 줄이는 기법입니다. 예를 들어 4바이트 부동소수점을 1바이트 정수(int8)로 근사하면 저장 공간과 추론 시간이 줄어, 메모리가 적은 엣지 기기에 모델을 올릴 수 있습니다.

사후 양자화와 양자화 인식 학습은 어떻게 다른가요?

사후 양자화는 이미 학습된 모델을 TFLite로 변환할 때 양자화하는 방식으로 빠르지만 정확도가 떨어질 수 있습니다. 양자화 인식 학습은 모델에 양자화를 적용한 뒤 적은 에폭으로 다시 학습(미세 조정)하는 방식으로, 손은 더 가지만 정확도를 더 잘 유지합니다.

양자화를 하면 모델이 얼마나 작아지나요?

강연 실습에서는 약 1MB짜리 숫자 분류 모델이 TFLite 변환만으로 312KB가 됐고, 양자화를 적용하자 약 82KB로 4분의 1 수준까지 줄었습니다. 양자화 인식 학습으로는 80KB 정도에 정확도까지 더 좋게 유지됐습니다.

텐서플로 모델을 엣지 기기에 올리려면 무엇이 필요한가요?

반드시 TFLite 변환 단계를 거쳐야 합니다. TFLite는 모델을 더 작은 형식으로 바꿔 엣지 기기에 배포할 수 있게 해 주며, 변환 시 양자화 옵션을 함께 적용하면 크기를 한층 더 줄일 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗