AI VIDEO BRIEFING

UMAP 차원 축소 쉽게 이해하기: 고차원 데이터를 그래프로 보는 핵심 원리와 t-SNE 차이

UMAP은 그래프로 그릴 수 없는 고차원 데이터를 2차원 등 저차원으로 줄여 군집과 이상치를 눈으로 보게 해주는 차원 축소 기법이다. 유사도 점수 계산과 점 이동 과정부터 t-SNE와의 차이까지 작동 원리를 쉽게 정리했다.

출처: StatQuest with Josh Starmer2022년 3월 7일AI 보조 요약

UMAP, 고차원 데이터를 한눈에: 차원 축소의 핵심 아이디어 영상 대표 이미지

핵심 메시지

UMAP은 그래프로 그릴 수 없는 고차원 데이터를 2차원 등 저차원으로 줄여 군집과 이상치를 눈으로 보게 한다.
PCA의 첫 두 주성분이 변동을 충분히 설명하지 못하는 복잡한 데이터에서 대안으로 쓰인다.
고차원에서 점들 사이 유사도 점수를 곡선으로 계산하며, 이웃 수(n_neighbors)가 곡선 모양을 결정한다.
저차원 그래프를 초기화한 뒤 가까워야 할 점은 당기고 다른 군집의 점은 밀며 조금씩 이동시킨다.
t-SNE와 매우 비슷하지만, 초기화가 결정적이고 일부 점만 옮겨 대용량 데이터에 더 잘 확장된다.

쉽게 이해하기

데이터가 2차원(예: 키와 몸무게)이면 평면에 그려 이상치와 군집을 쉽게 볼 수 있다. 나이를 더하면 3차원이 되고, 특성이 넷 이상이면 더는 그릴 수 없다. 그래서 특성이 많을 때 데이터를 들여다보려면 차원을 줄이는 방법이 필요하다.

한 가지 방법은 주성분 분석(PCA)이지만, PCA는 첫 두 주성분이 데이터 변동의 대부분을 설명할 때만 잘 통한다. 복잡한 데이터에서는 잘 맞지 않는데, 이때 쓰는 대안이 UMAP(균일 매니폴드 근사 및 투영)이다. UMAP은 큰 데이터에서도 비교적 빠르고, 비슷한 샘플끼리 뭉쳐 유사성과 이상치를 찾기에 좋다.

작동 원리는 이렇다. 먼저 고차원에서 모든 점 쌍의 거리를 구한다. 한 점을 기준으로 곡선을 그려 유사도 점수를 매기는데, 이 곡선의 모양은 각 점이 가질 이웃 수에 따라 달라지고(기본값 15), 점수의 합이 '이웃 수의 로그(밑 2)'가 되도록 맞춘다. 곡선이 점마다 달라 점수가 비대칭이 되므로, 평균을 내는 것과 비슷한 방법으로 대칭화한다.

다음은 저차원 그래프를 만드는 과정이다. 먼저 저차원 점들을 초기화한 뒤, 고차원 점수에 비례하는 확률로 가까워야 할 점 쌍을 골라 한 점을 다른 점 쪽으로 당긴다. 동시에 다른 군집의 점 하나를 균등한 확률로 골라 밀어낸다. 얼마나 옮길지는 t분포에서 나온 고정된 종 모양 곡선의 저차원 점수로 정하며, 매번 작은 보폭으로 조금씩만 움직여 그래프를 다듬는다.

UMAP은 t-SNE와 매우 비슷하지만 두 가지 큰 차이가 있다. 첫째, t-SNE는 매번 무작위로 초기화하지만 UMAP은 스펙트럴 임베딩으로 항상 같은 초기 그래프에서 시작해 결과가 재현된다. 둘째, t-SNE는 반복마다 모든 점을 조금씩 옮기지만 UMAP은 한 점이나 일부만 옮겨 대용량 데이터에 잘 확장된다. 또 이웃 수가 작으면 세부적인 작은 군집이, 크면 큰 그림이 드러난다.

주요 인사이트

차원 축소의 본질은 고차원에서의 '이웃 관계'를 저차원에서 최대한 보존하는 것이다.
이웃 수라는 하나의 하이퍼파라미터가 세부 군집을 볼지 큰 그림을 볼지를 좌우한다.
t-SNE 대비 결정적 초기화 덕분에 같은 데이터에서 같은 결과를 얻어 재현성이 좋다.
모든 점이 아니라 일부 점만 이동시키는 방식이 대용량 데이터에서의 확장성을 만든다.

자주 묻는 질문

UMAP은 무엇을 위한 도구인가?

특성이 셋 이상인 고차원 데이터를 사람이 볼 수 있는 저차원 그래프로 줄여 군집과 이상치를 파악하기 위한 차원 축소 기법이다.

이웃 수(n_neighbors)는 결과에 어떤 영향을 주나?

값이 작으면 작고 독립적인 세부 군집이 드러나 세부를 보게 되고, 값이 크면 세부보다는 데이터의 큰 그림이 드러난다.

UMAP과 t-SNE의 가장 큰 차이는?

UMAP은 스펙트럴 임베딩으로 항상 같은 초기 그래프에서 시작해 재현성이 있고, 매번 모든 점이 아니라 일부 점만 옮겨 대용량 데이터에 잘 확장된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗