AI VIDEO BRIEFING

Float32 Float16 BFloat16 차이: 딥러닝 부동소수점 정밀도 쉽게 이해하기

딥러닝에서 쓰이는 부동소수점 데이터 타입 Float32, Float16, BFloat16의 비트 구조와 범위·정밀도 차이, 그리고 역전파에서 변환이 왜 중요한지를 자막 내용을 바탕으로 정리했다.

출처: The ML Tech Lead!2024년 7월 19일AI 보조 요약

딥러닝의 숫자 표현법: Float32·Float16·BFloat16은 무엇이 다른가 영상 대표 이미지

핵심 메시지

Float32·Float16·BFloat16은 같은 숫자를 각각 다른 정밀도(비트 수)로 표현하는 방식이다.
각 데이터 타입은 부호(sign), 지수(exponent), 가수(mantissa) 비트로 구성되며, 비트를 어떻게 배분하느냐가 범위와 정밀도를 결정한다.
BFloat16은 지수에 8비트를 할당해 Float32와 거의 같은 범위를 갖는 대신 가수가 7비트로 줄어 정밀도가 낮다. Float16은 범위는 좁지만 더 정밀하다.
BFloat16은 Float32와 지수 비트 수가 같아 상호 변환이 사실상 단순(trivial)하지만, Float16으로의 변환은 오버플로 오류 위험이 있어 주의해야 한다.
역전파에서 모델 파라미터는 Float32로 갱신하고 메모리에는 16비트로 저장해 오가는데, 변환이 쉬운 BFloat16이 이 과정에 유리하다.

쉽게 이해하기

Float32, Float16, BFloat16은 모두 부동소수점 숫자를 표현하는 데이터 타입으로, 차이는 정밀도 수준에 있다. Float32는 32개의 비트(0과 1)로 하나의 부동소수점 수를 나타내고, Float16과 BFloat16은 같은 수를 16비트로 나타낸다. 이 구분이 딥러닝에서 중요한 이유는, 역전파 알고리즘에서 경사하강 옵티마이저가 모델 파라미터를 갱신할 때 반올림 오류를 줄이기 위해 Float32 정밀도로 계산하는 반면, 파라미터와 기울기는 메모리 부담을 줄이려 보통 16비트로 저장하기 때문이다. 그래서 16비트와 32비트 사이를 계속 오가게 된다.

Float32의 32비트는 역할이 정해져 있다. 첫 1비트는 부호, 다음 8비트는 지수, 나머지 23비트는 소수부(가수, mantissa)다. 부호 비트는 (-1)의 거듭제곱으로 양수·음수를 결정하고, 지수 8비트는 정수로 변환한 뒤 127을 빼서 큰 수와 작은 수를 모두 표현하도록 조정한다. 가수 23비트는 암묵적인 1과 함께 소수점 이하를 표현한다. 영상은 비트 배열을 실제 숫자로 변환하는 공식을 예시와 함께 보여준다.

Float16은 부호 1비트, 지수 5비트, 가수 10비트로 나뉘며 지수에서 15를 뺀다. 반면 BFloat16(brain float 16)은 같은 16비트를 쓰되 지수에 5비트가 아닌 8비트를 할당한다. 이는 Float32와 동일한 구조여서 BFloat16은 Float32와 같은 범위를 갖는다. 대신 가수가 7비트로 줄어 표현할 수 있는 소수 자릿수가 적어 정밀도가 낮다. 정리하면 BFloat16은 범위는 넓지만 덜 정밀하고, Float16은 범위는 좁지만 더 정밀하다.

범위의 차이는 변환에서 중요해진다. Float32는 약 ±3.4×10^38까지 표현하지만 Float16은 약 ±6.5×10^4에 그친다. 그래서 Float32 값을 Float16으로 바꿀 때 오버플로 오류가 날 수 있어, 변환하려는 수의 크기를 늘 신경 써야 한다. 반대로 BFloat16은 Float32와 범위가 거의 같아 변환이 쉽다. 영상은 더 작은 Float8(지수 4비트, 가수 3비트, 범위 약 ±240)도 함께 비교한다.

변환의 실제 과정을 보면, Float32에서 Float16으로 갈 때는 지수의 기준값(127 대 15)이 달라 단순히 비트를 잘라내는 것 이상의 조정이 필요하고 가수에서 반올림 오류가 생긴다. 반면 Float32에서 BFloat16으로의 변환은 지수 비트 수가 같으므로 가수만 잘라내면 되어 사실상 단순하다. 그래서 역전파에서 16비트와 32비트를 오가며 파라미터를 갱신할 때는 BFloat16 정밀도를 쓰는 편이 더 낫다고 영상은 결론짓는다.

주요 인사이트

비트 배분이 곧 트레이드오프다. 같은 16비트라도 지수에 더 많은 비트를 주면 표현 범위가 넓어지고, 가수에 더 많은 비트를 주면 정밀도가 높아진다.
BFloat16이 딥러닝에서 선호되는 핵심 이유는 정밀도가 아니라 Float32와 범위가 같아 변환이 쉽고 오버플로 위험이 작다는 점에 있다.
Float16으로의 변환에서 가장 조심할 부분은 값의 크기다. Float32 값이 Float16의 최대 표현값보다 크면 오버플로 오류가 발생하기 쉽다.
역전파에서 정밀도를 섞어 쓰는 이유는 메모리 절약(16비트 저장)과 수치 안정성(32비트 계산)을 동시에 잡기 위해서다.

자주 묻는 질문

Float32와 Float16, BFloat16의 가장 큰 차이는 무엇인가요?

Float32는 32비트로, Float16과 BFloat16은 16비트로 같은 수를 표현한다. 16비트 둘 중 Float16은 지수 5비트·가수 10비트라 범위가 좁지만 정밀하고, BFloat16은 지수 8비트·가수 7비트라 Float32와 같은 넓은 범위를 갖되 정밀도는 낮다.

왜 딥러닝에서 BFloat16을 선호하나요?

BFloat16은 Float32와 지수 비트 수(8비트)가 같아 범위가 거의 같고, 변환할 때 가수만 잘라내면 되므로 Float32와의 상호 변환이 사실상 단순하다. 역전파에서 16비트와 32비트를 오가야 하는 상황에 유리하다.

Float32를 Float16으로 변환할 때 무엇을 조심해야 하나요?

두 타입의 표현 범위가 크게 다르기 때문에 오버플로 오류가 발생할 수 있다. Float32 값이 Float16이 표현할 수 있는 최댓값보다 크면 변환 과정에서 오류가 나기 쉬우므로, 변환하려는 값의 크기를 반드시 확인해야 한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗