AI VIDEO BRIEFING

주성분 분석(PCA)이란? 고차원 데이터를 2차원으로 압축해 시각화하는 차원 축소 원리 정리

변수가 많아 직접 그릴 수 없는 고차원 데이터를 PCA가 어떻게 2차원 그래프로 압축해 비슷한 표본을 모아 보여 주는지, 주성분과 로딩 점수, 고윳값과 스크리 플롯 개념을 유전자 측정 예시로 단계별로 쉽게 풀어 설명합니다.

주성분 분석(PCA) 단계별 이해: 고차원 데이터를 2차원으로 압축해 패턴을 보는 법 영상 대표 이미지

핵심 메시지

  • PCA(주성분 분석)는 변수가 4개 이상이라 그래프로 그릴 수 없는 고차원 데이터를, 정보를 최대한 보존하면서 2차원 그래프로 압축해 비슷한 표본끼리 모여 보이게 하는 기법이다.
  • 데이터를 중심으로 이동시킨 뒤 원점을 지나는 직선을 회전시켜, 투영점과 원점 사이 제곱거리의 합이 가장 커지는 선(PC1)을 찾는 것이 핵심 계산이다.
  • 각 주성분은 원래 변수들을 섞은 '조합 비율(로딩 점수)'로 이뤄지며, 비율이 큰 변수가 데이터가 퍼지는 방향을 더 많이 설명한다.
  • 고윳값은 각 주성분이 설명하는 변동(분산)의 양이며, 이를 백분율로 나타낸 스크리 플롯으로 2차원 요약이 얼마나 정확한지 판단할 수 있다.
  • PC1·PC2가 전체 변동의 대부분을 차지하면 2차원 그래프만으로도 데이터를 충실히 표현할 수 있다.

쉽게 이해하기

유전자 2개를 측정하면 데이터를 평면(x·y축) 위에 점으로 찍어 볼 수 있고, 3개면 3차원으로 그릴 수 있다. 하지만 4개 이상이면 더는 그림으로 나타낼 수 없다. PCA는 이렇게 차원이 늘어 시각화가 불가능해진 데이터를, 가장 중요한 정보를 담은 2차원 그래프로 줄여 비슷한 표본이 가까이 모이도록 보여 준다.

계산은 먼저 각 변수의 평균으로 데이터의 중심을 구한 뒤, 그 중심을 원점에 맞춰 데이터를 평행 이동하는 것에서 시작한다. 이동해도 점들 사이의 상대적 위치는 바뀌지 않는다. 그다음 원점을 지나는 직선을 그어 놓고 조금씩 회전시키며 데이터에 가장 잘 맞는 선을 찾는다.

선이 얼마나 잘 맞는지는 각 점을 선 위로 투영한 뒤, 투영점과 원점 사이 거리를 잰다. 피타고라스 정리에 따라 '점에서 선까지의 거리를 최소화'하는 것과 '투영점에서 원점까지의 거리를 최대화'하는 것은 같은 결과를 낳는데, 후자가 계산이 쉬워 PCA는 투영점-원점 제곱거리의 합을 최대로 만드는 선을 택한다. 이렇게 찾은 선이 첫 번째 주성분(PC1)이다.

PC1은 원래 변수들을 일정 비율로 섞은 결과로 표현된다. 영상에서는 이를 '칵테일 레시피'에 빗대, 예컨대 유전자1 4 대 유전자2 1처럼 섞는다고 설명한다. 이 비율(로딩 점수)이 큰 변수일수록 데이터가 퍼진 방향을 더 많이 설명한다. 두 번째 주성분(PC2)은 PC1과 직각을 이루는 선으로 정해진다.

각 주성분이 설명하는 변동의 양이 고윳값이며, 이를 전체로 나눠 백분율로 표시한 것이 스크리 플롯이다. 예를 들어 PC1이 79%, PC2가 15%를 설명하면 둘만으로 94%를 담으므로 2차원 그래프가 원본을 충분히 대표한다. 반대로 뒤쪽 주성분들도 큰 비중을 차지하면 2차원 요약은 부정확해지지만, 그래도 표본 군집을 식별하는 데는 쓸 수 있다.

주요 인사이트

  • '점에서 선까지 거리 최소화'와 '투영점에서 원점까지 거리 최대화'가 수학적으로 같다는 점이 PCA 계산의 핵심 직관이다. 점과 원점 사이 거리는 고정돼 있어, 한쪽이 커지면 다른 쪽은 반드시 작아지기 때문이다.
  • 주성분이 '변수들의 선형 결합'이라는 말은, 결국 원래 변수를 특정 비율로 섞었다는 뜻일 뿐 복잡한 개념이 아니다.
  • 고유벡터·고윳값·특잇값·로딩 점수처럼 용어는 많지만, 실제로는 '가장 잘 맞는 선의 방향'과 '그 선이 설명하는 변동의 크기'라는 두 가지를 가리킨다.
  • 주성분의 이론상 개수는 변수 수만큼이지만, 실제로는 변수 수와 표본 수 중 더 작은 값으로 제한된다.
  • 스크리 플롯은 차원 축소를 무작정 믿지 않고, 2차원 요약이 데이터를 얼마나 정확히 담는지 수치로 점검하게 해 준다.

자주 묻는 질문

PCA는 무엇을 위해 쓰나요?

변수가 많아 직접 그릴 수 없는 고차원 데이터를 2차원 그래프로 압축해, 비슷한 표본끼리 모여 보이게 하고 어떤 변수가 데이터 분류에 가장 중요한지 파악하기 위해 씁니다.

첫 번째 주성분(PC1)은 어떻게 정해지나요?

데이터를 원점 중심으로 옮긴 뒤 원점을 지나는 직선을 회전시키며, 데이터를 그 선에 투영했을 때 투영점과 원점 사이 제곱거리의 합이 가장 커지는 선을 PC1으로 정합니다.

2차원 PCA 그래프가 믿을 만한지는 어떻게 아나요?

고윳값으로 각 주성분이 설명하는 변동 비율을 구해 스크리 플롯으로 봅니다. PC1과 PC2가 전체 변동의 대부분을 차지하면 2차원 요약이 원본을 충실히 대표한다고 볼 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#PCA#주성분분석#차원축소#데이터시각화#머신러닝