AI VIDEO BRIEFING

t-SNE 차원 축소 원리 쉽게 이해하기 — 고차원 데이터를 군집이 살아있는 2차원 지도로 시각화하는 법

t-SNE는 고차원 데이터를 원래 정보를 최대한 살리면서 저차원 그래프로 줄여 숨은 군집을 눈으로 보게 해줍니다. 유사도 점수 계산과 t분포로 군집을 보존하는 작동 원리를 단계별로 풀어 설명합니다.

출처: StatQuest with Josh Starmer2017년 9월 18일AI 보조 요약

t-SNE 쉽게 이해하기: 고차원 데이터를 한눈에 보이는 지도로 바꾸는 법 영상 대표 이미지

핵심 메시지

t-SNE는 고차원 데이터셋을 원래 정보를 많이 보존하면서 저차원 그래프로 줄여, 데이터에 숨은 군집 구조를 눈으로 확인할 수 있게 해준다.
데이터를 단순히 한 축에 투영하면 서로 다른 군집이 뒤섞여 사라지지만, t-SNE는 가까운 점은 끌어당기고 먼 점은 밀어내며 점을 조금씩 옮겨 군집을 유지한다.
핵심은 '유사도 점수'다. 두 점 사이 거리를 정규분포 곡선 위에 올려 가까울수록 높은 값을 매기고, 한 점 기준 모든 유사도의 합이 1이 되도록 스케일링한다.
곡선의 폭은 주변 데이터 밀도에 따라 달라져, 느슨한 군집과 빽빽한 군집의 유사도가 비슷하게 맞춰진다. 이는 perplexity 매개변수와 연결된다.
저차원에서는 정규분포 대신 t분포를 사용해 점들이 가운데로 뭉치지 않고 군집이 잘 분리되어 보이게 한다. 't-SNE'의 't'가 바로 이 t분포를 가리킨다.

쉽게 이해하기

t-SNE는 변수가 아주 많은 고차원 데이터셋을 2차원이나 1차원처럼 낮은 차원의 그래프로 줄여주는 기법이다. 단순히 차원을 깎아내는 것이 아니라 원래 데이터가 가진 정보를 최대한 보존하는 것이 목표다. 덕분에 사람이 직접 보기 어려운 고차원 공간의 군집 구조를 한 장의 그래프로 살펴볼 수 있다.

왜 단순 투영으로는 안 될까. 2차원 산점도의 점들을 그냥 X축이나 Y축 하나에 투영하면, 본래 뚜렷하게 나뉘던 두 군집이 한데 뒤섞여 의미가 사라진다. t-SNE는 대신 저차원 공간에서도 원래의 군집이 유지되도록 점들을 배치한다. 먼저 점들을 무작위 순서로 늘어놓은 뒤, 조금씩 위치를 옮기며 군집을 만들어 간다.

점을 옮기는 규칙은 끌어당김과 밀어냄이다. 어떤 점은 원래 산점도에서 가까운 점들 쪽으로 끌리고, 멀리 있던 점들로부터는 밀려난다. 매 단계마다 각 점은 가까운 점에는 끌리고 먼 점에는 반발하며 조금씩 이동한다. 이 과정을 반복하면 비슷한 점들이 자연스럽게 모인다.

이를 수치로 만든 것이 유사도 점수다. 관심 점을 중심에 둔 정규분포 곡선 위에 다른 점까지의 거리를 올리고, 점에서 곡선까지의 길이를 유사도로 삼는다. 가까운 점은 높은 값, 먼 점은 낮은 값을 갖는다. 곡선의 폭은 주변 밀도에 따라 달라지므로, 유사도들의 합이 1이 되도록 스케일링하면 밀도가 다른 군집들도 서로 비슷한 정도로 다뤄진다. 양방향 유사도는 평균을 내고, 자기 자신에 대한 유사도는 군집에 도움이 되지 않으므로 0으로 둔다.

마지막으로 저차원의 수직선에 점을 무작위로 배치하고 같은 방식으로 유사도를 계산하되, 이번에는 t분포를 쓴다. t분포는 정규분포보다 가운데가 낮고 양 끝이 두꺼워, 점들이 중앙에 뭉치는 것을 막아준다. t-SNE는 마치 한 수씩 두는 체스처럼 한 번에 풀지 않고 조금씩 점을 움직여, 저차원의 유사도 행렬이 원래 고차원의 유사도 행렬과 닮아가도록 만든다.

주요 인사이트

t-SNE의 본질은 '거리'가 아니라 '유사도'를 보존하는 데 있다. 정규분포로 거리를 유사도로 바꾸면 멀리 있는 점의 영향은 급격히 줄어, 국소적인 이웃 관계가 강조된다.
유사도 합을 1로 맞추는 스케일링 덕분에 빽빽한 군집과 느슨한 군집이 그래프에서 비슷한 비중으로 표현된다. 밀도 차이에 휘둘리지 않고 구조를 보려는 장치다.
저차원에서 t분포를 쓰는 선택이 t-SNE 그래프 특유의 또렷한 군집 분리를 만든다. 정규분포만 썼다면 점들이 중앙으로 몰려 군집을 구분하기 어려웠을 것이다.
최적화가 한 번에 끝나지 않고 점을 조금씩 옮기는 반복 과정이라는 점은, 같은 데이터라도 결과 그래프가 단번에 정해지지 않음을 시사한다.

자주 묻는 질문

t-SNE는 무엇을 하는 기법인가요?

고차원 데이터셋을 원래 정보를 많이 보존하면서 2차원이나 1차원 같은 저차원 그래프로 줄여, 데이터의 군집 구조를 눈으로 볼 수 있게 해주는 차원 축소 기법입니다.

왜 데이터를 그냥 한 축에 투영하면 안 되나요?

축 하나에 그대로 투영하면 원래 뚜렷이 나뉘던 군집들이 뒤섞여 버립니다. t-SNE는 가까운 점은 끌어당기고 먼 점은 밀어내며 점을 옮겨 군집을 유지합니다.

이름의 't'는 무슨 뜻인가요?

저차원에 점을 배치할 때 정규분포 대신 t분포를 사용하기 때문입니다. t분포는 양 끝이 두꺼워 점들이 가운데로 뭉치는 것을 막아 군집이 잘 분리되어 보이게 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗