AI VIDEO BRIEFING

KL 발산 직관적 이해: 두 분포의 차이를 재는 공식을 비대칭성부터 직접 유도하기

두 확률분포의 차이를 재는 KL 발산을 외우는 공식이 아니라 문제에서 출발해 직접 만들어본다. 비대칭성, 로그 변환이 필요한 이유, 현재 분포 확률로 가중하는 까닭까지 단계별로 유도하고 데이터 과학 활용까지 정리했다.

공식을 외우지 말고 만들어보자 — KL 발산을 처음부터 직접 유도하기 영상 대표 이미지

핵심 메시지

  • KL 발산은 두 확률분포가 얼마나 다른지를 하나의 숫자로 재는, 데이터 과학에서 널리 쓰이는 지표다.
  • 공식을 외우기보다 문제에서 출발해 직접 만든다는 관점으로 접근하면 각 항의 의미가 분명해진다.
  • KL 발산은 비대칭적이다 — 어느 분포를 기준(Q)으로 삼느냐에 따라 값이 달라진다.
  • 단순 평균은 큰 값에 휘둘리므로 비율에 로그를 씌우고, 균등 가중 대신 현재 분포 P(x)로 가중한다.
  • 최종 형태는 Σ P(x)·log(P(x)/Q(x))이며, 관측 분포에 가장 잘 맞는 후보 분포를 찾는 데 쓰인다.

쉽게 이해하기

이 영상은 KL 발산이라는 결과 공식을 외우는 대신, 문제에서 출발해 그 공식을 직접 설계해 본다. 발표자는 수학 공식이 하늘에서 떨어진 정답이 아니라 누군가 특정 목적을 위해 만든 구성물이라고 말한다. 복잡해 보이는 식을 거꾸로 해석하려 애쓰기보다, 이런 문제를 풀 지표를 만들어 달라는 식으로 정방향으로 쌓아 올리면 훨씬 이해하기 쉽다는 것이다.

예시는 유치원 교사다. 해마다 학생들에게 좋아하는 과일(사과·바나나·클레멘타인)을 물어 비율을 얻는다. 1년 차는 사과 50%·바나나 40%·클레멘타인 10%, 2년 차는 사과 50%는 같고 바나나와 클레멘타인이 각각 10%·40%로 뒤바뀌었다. 1년 차 분포를 기준으로 2년 차가 얼마나 달라졌는지를 하나의 숫자로 나타내는 것이 목표다.

여기서 첫 제약이 드러난다. 기준(Q) 대비 얼마나 달라졌는가를 묻기 때문에, 지표는 비대칭이어야 한다. 두 분포를 바꿔 넣으면 답이 달라져야 한다는 뜻이다. 발표자는 로스앤젤레스와 시카고의 연봉 비교처럼, 어디에 사는지(기준점)에 따라 이사하면 얼마나 오를까의 답이 달라지는 예로 비대칭성이 결함이 아니라 바람직한 성질임을 설명한다.

구성은 비율에서 시작한다. 각 과일에 대해 P/Q를 구하면 사과 1, 바나나 1/4, 클레멘타인 4가 된다. 그런데 이 값들을 그냥 산술평균하면 문제가 생긴다. 평균은 큰 값에 쏠리기 때문이다. 4배 증가와 1/4배 감소는 크기가 같고 방향만 반대인 변화인데, 평균은 4에 끌려간다. 그래서 역수 관계인 두 값을 크기는 같고 부호만 반대로 보내는 함수, 즉 로그를 씌워 log(P/Q)로 바꾼다.

마지막 손질은 가중치다. 모든 항목을 1/n로 균등하게 평균하는 대신, 현재 분포에서의 인기도 P(x)로 가중한다. 지금 학생의 50%가 좋아하는 사과의 변화는 크게, 10%만 좋아하는 바나나의 변화는 작게 반영하는 것이다. 그 결과가 KL(P‖Q) = Σ P(x)·log(P(x)/Q(x))이다. 대표적 활용은 분포 근사로, 잡음 섞인 관측 분포 P에 대해 여러 후보 분포 Q의 KL 발산을 비교해 값이 더 낮은(더 잘 맞는) 후보를 고른다.

주요 인사이트

  • 수학 공식은 주어진 정답이 아니라 목적에 맞춰 설계된 구성물 — 거꾸로 만들어보면 의미가 보인다.
  • 비대칭성은 결함이 아니라 의도된 성질이다. 기준점이 다르면 답이 달라야 하기 때문이다.
  • 비율 4와 1/4은 크기는 같고 방향만 반대인데, 산술평균은 큰 값에 쏠려 로그 변환으로 바로잡는다.
  • 1/n 균등 가중 대신 현재 분포의 인기도 P(x)로 가중해, 지금 비중이 큰 항목의 변화를 더 중시한다.
  • 대표 활용은 분포 근사 — 관측 분포 P에 대해 후보 Q들의 KL을 비교해 더 낮은 쪽이 더 잘 맞는 모델이다.

자주 묻는 질문

KL 발산은 왜 대칭이 아닌가?

어떤 분포를 기준(Q)으로 두느냐에 따라 얼마나 달라졌는가의 답이 달라지기 때문이다. P와 Q를 바꾸면 식의 모든 확률과 P/Q 비율이 뒤집혀 값이 달라진다.

왜 비율에 로그를 씌우나?

비율을 그대로 평균하면 큰 값(예: 4)이 작은 값(1/4)보다 과도하게 영향을 준다. 로그는 서로 역수인 값을 크기는 같고 부호만 반대로 만들어, 크기가 같고 방향만 반대인 변화를 공평하게 다룬다.

KL 발산은 어디에 쓰나?

관측된(잡음 섞인) 분포를 정규분포처럼 잘 알려진 분포로 근사할 때, 후보 분포들의 KL 발산을 비교해 값이 더 낮은(더 잘 맞는) 후보를 고르는 데 쓴다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#KL 발산#쿨백-라이블러#확률분포#정보이론#데이터과학