초소형 LLM 만들기, 양자화로 AI 모델 압축하는 원리와 한계
FP16을 4비트, 1비트까지 줄이는 양자화로 63.66MB짜리 LLM을 CPU에서 78토큰/초로 돌린 실험. 모델 경량화가 왜 필요하고 어디까지 무너지는지 유쾌하게 짚었다.
핵심 내용 읽기 →AI TOPIC
FP8 관련 핵심 뉴스와 활용 인사이트 2편을 최신순으로 모았습니다.

FP16을 4비트, 1비트까지 줄이는 양자화로 63.66MB짜리 LLM을 CPU에서 78토큰/초로 돌린 실험. 모델 경량화가 왜 필요하고 어디까지 무너지는지 유쾌하게 짚었다.
핵심 내용 읽기 →
WaN 2.2와 LTX 2.3 영상 생성 모델을 FP16부터 2비트까지 단계별로 낮춰 비교한 실험. FP8이 같은 비트의 Q8보다 품질이 떨어지고 오디오가 영상보다 먼저 무너지며, 비트 수보다 형식이 중요하다는 결론을 정리했습니다.
핵심 내용 읽기 →