AI VIDEO BRIEFING

KL 발산 직관적 이해: 두 분포의 차이를 재는 공식을 비대칭성부터 직접 유도하기

두 확률분포의 차이를 재는 KL 발산을 외우는 공식이 아니라 문제에서 출발해 직접 만들어본다. 비대칭성, 로그 변환이 필요한 이유, 현재 분포 확률로 가중하는 까닭까지 단계별로 유도하고 데이터 과학 활용까지 정리했다.

출처: ritvikmath2023년 1월 23일AI 보조 요약

공식을 외우지 말고 만들어보자 — KL 발산을 처음부터 직접 유도하기 영상 대표 이미지

핵심 메시지

KL 발산은 두 확률분포가 얼마나 다른지를 하나의 숫자로 재는, 데이터 과학에서 널리 쓰이는 지표다.
공식을 외우기보다 문제에서 출발해 직접 만든다는 관점으로 접근하면 각 항의 의미가 분명해진다.
KL 발산은 비대칭적이다 — 어느 분포를 기준(Q)으로 삼느냐에 따라 값이 달라진다.
단순 평균은 큰 값에 휘둘리므로 비율에 로그를 씌우고, 균등 가중 대신 현재 분포 P(x)로 가중한다.
최종 형태는 Σ P(x)·log(P(x)/Q(x))이며, 관측 분포에 가장 잘 맞는 후보 분포를 찾는 데 쓰인다.

쉽게 이해하기

이 영상은 KL 발산이라는 결과 공식을 외우는 대신, 문제에서 출발해 그 공식을 직접 설계해 본다. 발표자는 수학 공식이 하늘에서 떨어진 정답이 아니라 누군가 특정 목적을 위해 만든 구성물이라고 말한다. 복잡해 보이는 식을 거꾸로 해석하려 애쓰기보다, 이런 문제를 풀 지표를 만들어 달라는 식으로 정방향으로 쌓아 올리면 훨씬 이해하기 쉽다는 것이다.

예시는 유치원 교사다. 해마다 학생들에게 좋아하는 과일(사과·바나나·클레멘타인)을 물어 비율을 얻는다. 1년 차는 사과 50%·바나나 40%·클레멘타인 10%, 2년 차는 사과 50%는 같고 바나나와 클레멘타인이 각각 10%·40%로 뒤바뀌었다. 1년 차 분포를 기준으로 2년 차가 얼마나 달라졌는지를 하나의 숫자로 나타내는 것이 목표다.

여기서 첫 제약이 드러난다. 기준(Q) 대비 얼마나 달라졌는가를 묻기 때문에, 지표는 비대칭이어야 한다. 두 분포를 바꿔 넣으면 답이 달라져야 한다는 뜻이다. 발표자는 로스앤젤레스와 시카고의 연봉 비교처럼, 어디에 사는지(기준점)에 따라 이사하면 얼마나 오를까의 답이 달라지는 예로 비대칭성이 결함이 아니라 바람직한 성질임을 설명한다.

구성은 비율에서 시작한다. 각 과일에 대해 P/Q를 구하면 사과 1, 바나나 1/4, 클레멘타인 4가 된다. 그런데 이 값들을 그냥 산술평균하면 문제가 생긴다. 평균은 큰 값에 쏠리기 때문이다. 4배 증가와 1/4배 감소는 크기가 같고 방향만 반대인 변화인데, 평균은 4에 끌려간다. 그래서 역수 관계인 두 값을 크기는 같고 부호만 반대로 보내는 함수, 즉 로그를 씌워 log(P/Q)로 바꾼다.

마지막 손질은 가중치다. 모든 항목을 1/n로 균등하게 평균하는 대신, 현재 분포에서의 인기도 P(x)로 가중한다. 지금 학생의 50%가 좋아하는 사과의 변화는 크게, 10%만 좋아하는 바나나의 변화는 작게 반영하는 것이다. 그 결과가 KL(P‖Q) = Σ P(x)·log(P(x)/Q(x))이다. 대표적 활용은 분포 근사로, 잡음 섞인 관측 분포 P에 대해 여러 후보 분포 Q의 KL 발산을 비교해 값이 더 낮은(더 잘 맞는) 후보를 고른다.

주요 인사이트

수학 공식은 주어진 정답이 아니라 목적에 맞춰 설계된 구성물 — 거꾸로 만들어보면 의미가 보인다.
비대칭성은 결함이 아니라 의도된 성질이다. 기준점이 다르면 답이 달라야 하기 때문이다.
비율 4와 1/4은 크기는 같고 방향만 반대인데, 산술평균은 큰 값에 쏠려 로그 변환으로 바로잡는다.
1/n 균등 가중 대신 현재 분포의 인기도 P(x)로 가중해, 지금 비중이 큰 항목의 변화를 더 중시한다.
대표 활용은 분포 근사 — 관측 분포 P에 대해 후보 Q들의 KL을 비교해 더 낮은 쪽이 더 잘 맞는 모델이다.

자주 묻는 질문

KL 발산은 왜 대칭이 아닌가?

어떤 분포를 기준(Q)으로 두느냐에 따라 얼마나 달라졌는가의 답이 달라지기 때문이다. P와 Q를 바꾸면 식의 모든 확률과 P/Q 비율이 뒤집혀 값이 달라진다.

왜 비율에 로그를 씌우나?

비율을 그대로 평균하면 큰 값(예: 4)이 작은 값(1/4)보다 과도하게 영향을 준다. 로그는 서로 역수인 값을 크기는 같고 부호만 반대로 만들어, 크기가 같고 방향만 반대인 변화를 공평하게 다룬다.

KL 발산은 어디에 쓰나?

관측된(잡음 섞인) 분포를 정규분포처럼 잘 알려진 분포로 근사할 때, 후보 분포들의 KL 발산을 비교해 값이 더 낮은(더 잘 맞는) 후보를 고르는 데 쓴다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗