AI VIDEO BRIEFING
계층적 군집화 완벽 이해: 히트맵·덴드로그램·유클리드 거리로 보는 클러스터링의 원리
비슷한 행과 열을 단계적으로 묶어 히트맵을 재배열하는 계층적 군집화의 원리를, 덴드로그램과 유클리드·맨해튼 거리, 그리고 중심·단일·완전 연결법까지 일반 독자의 눈높이에서 차근차근 풀어 설명합니다.

핵심 메시지
쉽게 이해하기
히트맵은 보통 열이 샘플을, 행이 유전자 같은 측정값을 나타내고 색으로 값의 크고 작음을 표현한다. 계층적 군집화는 이 행과 열을 유사도에 따라 다시 정렬해, 같은 패턴을 보이는 샘플과 유전자가 서로 가까이 모이도록 만든다. 같은 데이터라도 군집화 전과 후의 히트맵은 인상이 크게 달라진다.
작동 원리는 단순하다. 먼저 각 행에 대해 가장 닮은 다른 행을 찾고, 그중 전체에서 가장 비슷한 한 쌍을 골라 하나의 군집으로 묶는다. 그다음에는 그 군집을 마치 하나의 행인 것처럼 다루고 같은 과정을 처음부터 반복한다. 남은 것이 군집뿐일 때까지 이어가면 모든 데이터가 하나로 합쳐진다.
이 과정은 흔히 덴드로그램이라는 나뭇가지 그림으로 함께 표현된다. 가장 먼저, 그리고 가장 비슷하게 묶인 군집일수록 가지가 짧고, 가장 나중에 모든 것을 아우르며 형성된 군집은 가지가 가장 길다. 가지 길이만 봐도 무엇이 서로 가까운지 읽어낼 수 있다.
'가장 닮았다'는 말을 수치로 정의하려면 거리 척도가 필요하다. 가장 널리 쓰이는 유클리드 거리는 각 샘플에서의 차이를 제곱해 더한 뒤 제곱근을 취하는, 피타고라스 정리와 같은 계산이다. 차이의 절대값을 그대로 더하는 맨해튼 거리도 있으며, 어느 쪽을 쓰는지에 따라 결과 히트맵이 미묘하게 달라진다.
군집과 다른 점이나 군집을 비교할 때도 방법이 여럿이다. 두 군집의 평균(중심) 사이 거리를 보는 방식, 가장 가까운 점끼리 보는 단일 연결, 가장 먼 점끼리 보는 완전 연결 등이 대표적이다. 다행히 대부분의 통계 프로그램은 합리적인 기본값을 제공하므로(예: R의 hclust는 완전 연결이 기본) 비전문가도 무리 없이 활용할 수 있다.
주요 인사이트
- 계층적 군집화는 데이터 자체를 바꾸는 것이 아니라 표현 방식을 바꾼다. 같은 값이라도 어떻게 정렬하느냐에 따라 상관관계가 드러나기도 하고 가려지기도 한다.
- 거리 척도와 연결법에는 절대적인 정답이 없다. 생물학적·물리적 당위가 있는 것이 아니라, 데이터에 더 많은 통찰을 주는 쪽을 고르는 선택의 문제다.
- 새로 만든 군집을 하나의 개체처럼 다시 다루는 재귀적 반복이 바로 이 방법을 계층적으로 만드는 핵심이다.
- 복잡해 보이지만 대부분의 도구가 좋은 기본 설정을 갖추고 있어, 사용자는 결과 해석에 집중할 수 있다.
자주 묻는 질문
계층적 군집화는 무엇을 하나요?
비슷한 행이나 열을 단계적으로 묶어 히트맵을 재배열함으로써, 데이터 속 닮은 그룹과 패턴을 한눈에 볼 수 있게 만듭니다.
닮음의 정도는 어떻게 측정하나요?
거리로 측정합니다. 차이를 제곱해 더한 뒤 제곱근을 취하는 유클리드 거리가 흔히 쓰이고, 차이의 절대값을 더하는 맨해튼 거리도 있습니다.
군집끼리는 어떻게 비교하나요?
두 군집의 평균을 보는 중심 연결, 가장 가까운 점을 보는 단일 연결, 가장 먼 점을 보는 완전 연결 등 여러 방법이 있습니다.
덴드로그램의 가지 길이는 무엇을 뜻하나요?
먼저, 그리고 더 비슷하게 묶인 군집일수록 가지가 짧고, 가장 나중에 형성된 큰 군집일수록 가지가 깁니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗