AI VIDEO BRIEFING

AI 영상 모델 양자화 실험: FP16부터 2비트까지 낮춰보니 FP8보다 Q8이 낫고 Q4가 최적점이었다

WaN 2.2와 LTX 2.3 영상 생성 모델을 FP16부터 2비트까지 단계별로 낮춰 비교한 실험. FP8이 같은 비트의 Q8보다 품질이 떨어지고 오디오가 영상보다 먼저 무너지며, 비트 수보다 형식이 중요하다는 결론을 정리했습니다.

AI 영상 모델을 2비트까지 눌러봤다: 비트 수보다 '형식'이 중요했다 영상 대표 이미지

핵심 메시지

  • 로컬에서 AI 영상 모델을 돌린다면 사실상 양자화된 버전을 쓰는 것이며, 많은 워크플로가 기본값으로 Q4를 택한다.
  • 같은 8비트라도 FP8은 정수 기반 Q8보다 원본에서 약 2배 더 멀어졌다 — 비트 수보다 형식이 품질을 좌우한다.
  • 오디오를 함께 생성하는 LTX에서는 영상보다 오디오 품질이 먼저 무너져, Q5에서 Q4로 한 단계 내리자 음성 지표가 약 5배 나빠졌다.
  • 일반 소비자용 24GB GPU에서 돌릴 만한 Q4가 대체로 최적점이며, 이 최적점은 모델 아키텍처가 바뀌어도 거의 이동하지 않았다.
  • 단단한 사물의 움직임은 낮은 비트까지 버티지만, 사람의 얼굴이 들어가면 붕괴 지점이 훨씬 높아진다.

쉽게 이해하기

발표자는 ComfyUI 같은 도구가 GGUF 양자화 버전을 권하고 다수 사용자가 별 고민 없이 Q4를 쓰지만, 그 대가로 무엇을 잃는지는 잘 알려지지 않았다고 지적한다. 이를 확인하려고 텍스트→영상 모델 WaN 2.2(140억 파라미터)와 영상·오디오를 동시에 생성하는 LTX 2.3(220억 파라미터)을 FP16/BF16부터 2비트까지 8단계로 낮추며 같은 프롬프트·시드·설정으로 비교했다.

실험 장비는 직접 조립한 리눅스 머신으로, RTX Pro 6000 Blackwell(96GB)에 모든 정밀도 모델이 여유 있게 올라갔다. 품질은 SSIM·LPIPS·프롬프트 정합도 같은 표준 지표에 더해 음성 인식(Whisper) 단어 오류율과 멜 스펙트로그램 오차, 그리고 직접 보고 듣는 검증을 함께 사용했다.

가장 흥미로운 결과는 8비트 구간에서 나왔다. 하드웨어 가속을 받는 FP8은 '당연히 유리할 것'이라는 기대와 달리, 같은 8비트인 정수 기반 Q8보다 원본에서 약 2배 더 멀어졌다. 물 잔 장면에서 FP8은 LPIPS 0.19, Q8은 0.07로 거의 원본과 같았다. 심지어 FP8에서는 빨간 자동차가 뒤로 달리는 오작동까지 나타났는데, 다른 어떤 양자화에서도 없던 현상이었다.

비트를 더 낮추면 Q4가 소비자용 GPU에서 돌릴 만한 현실적 지점으로 등장한다. 단독으로 보면 '괜찮다' 싶지만 원본과 비교하면 LPIPS가 0.34 안팎으로 벌어지고 인물의 머리카락과 얼굴이 서서히 달라진다. 특히 LTX에서는 Q5→Q4 한 단계에서 멜 스펙트로그램 오차가 9.9에서 46.9로 뛰며 오디오가 영상보다 먼저 무너졌다. 2비트(Q2)에 이르면 사람과 움직임은 사실상 사용 불가 수준으로 붕괴했다.

결론은 세 가지다. 첫째, 같은 비트라도 형식이 비트 수보다 중요하다(FP8보다 Q8). 둘째, 오디오는 영상보다 먼저 열화되므로 소리가 있는 출력은 반드시 들어봐야 한다. 셋째, 보편적인 붕괴 지점은 없다 — 단단한 사물은 낮은 비트까지 버티지만 사람은 바닥이 높다. 특별한 이유가 없다면 Q4를 쓰라는 것이 발표자의 권고다.

주요 인사이트

  • '비트 수 = 품질'이라는 직관은 틀렸다. 정밀도를 어디에 쓰는지를 정하는 형식(FP8 vs 정수 Q8)이 실제 품질 차이를 만든다.
  • 영상만 보면 놓치기 쉬운 오디오 열화가 시청자에게는 즉시 체감된다. 나쁜 영상은 참아도 나쁜 소리에는 바로 이탈하기 때문이다.
  • 서로 다른 팀이 만든 두 아키텍처가 거의 같은 방식으로 무너졌다는 점은, 최적점(Q4)이 모델에 크게 의존하지 않는 일반적 성질일 수 있음을 시사한다.
  • SSIM이 2비트에서도 0.74로 나오는 등 지표가 눈으로 본 붕괴를 항상 반영하지는 않아, 벤치마크 수치는 신중히 해석해야 한다.
  • 물리(공굴리기)처럼 모델 자체의 한계에서 오는 오류는 양자화와 무관하게 전 정밀도에서도 나타나므로, 품질 저하의 원인을 구분해야 한다.

자주 묻는 질문

AI 영상 모델을 로컬에서 돌릴 때 어떤 양자화를 골라야 하나요?

특별한 이유가 없다면 Q4가 권장됩니다. 화질·용량 균형이 좋고, 이 최적점은 모델 아키텍처가 바뀌어도 거의 이동하지 않았습니다.

같은 8비트인데 FP8과 Q8은 무엇이 다른가요?

FP8은 부동소수점, Q8은 정수 기반(K-quant 그룹핑) 형식입니다. 디스크 용량은 비슷하지만 실험에서 FP8이 원본에서 약 2배 더 멀어져, 형식이 비트 수보다 품질에 큰 영향을 줬습니다.

오디오가 있는 모델에서 특히 주의할 점은 무엇인가요?

오디오가 영상보다 먼저 열화됩니다. LTX에서 Q5→Q4 한 단계 만에 음성 지표가 약 5배 나빠졌으므로, 소리가 있는 출력은 반드시 Q4에서 직접 들어보고 판단해야 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식