AI VIDEO BRIEFING

주성분 분석(PCA)이란? 고차원 데이터를 2차원으로 압축해 시각화하는 차원 축소 원리 정리

변수가 많아 직접 그릴 수 없는 고차원 데이터를 PCA가 어떻게 2차원 그래프로 압축해 비슷한 표본을 모아 보여 주는지, 주성분과 로딩 점수, 고윳값과 스크리 플롯 개념을 유전자 측정 예시로 단계별로 쉽게 풀어 설명합니다.

출처: StatQuest with Josh Starmer2018년 4월 2일AI 보조 요약

주성분 분석(PCA) 단계별 이해: 고차원 데이터를 2차원으로 압축해 패턴을 보는 법 영상 대표 이미지

핵심 메시지

PCA(주성분 분석)는 변수가 4개 이상이라 그래프로 그릴 수 없는 고차원 데이터를, 정보를 최대한 보존하면서 2차원 그래프로 압축해 비슷한 표본끼리 모여 보이게 하는 기법이다.
데이터를 중심으로 이동시킨 뒤 원점을 지나는 직선을 회전시켜, 투영점과 원점 사이 제곱거리의 합이 가장 커지는 선(PC1)을 찾는 것이 핵심 계산이다.
각 주성분은 원래 변수들을 섞은 '조합 비율(로딩 점수)'로 이뤄지며, 비율이 큰 변수가 데이터가 퍼지는 방향을 더 많이 설명한다.
고윳값은 각 주성분이 설명하는 변동(분산)의 양이며, 이를 백분율로 나타낸 스크리 플롯으로 2차원 요약이 얼마나 정확한지 판단할 수 있다.
PC1·PC2가 전체 변동의 대부분을 차지하면 2차원 그래프만으로도 데이터를 충실히 표현할 수 있다.

쉽게 이해하기

유전자 2개를 측정하면 데이터를 평면(x·y축) 위에 점으로 찍어 볼 수 있고, 3개면 3차원으로 그릴 수 있다. 하지만 4개 이상이면 더는 그림으로 나타낼 수 없다. PCA는 이렇게 차원이 늘어 시각화가 불가능해진 데이터를, 가장 중요한 정보를 담은 2차원 그래프로 줄여 비슷한 표본이 가까이 모이도록 보여 준다.

계산은 먼저 각 변수의 평균으로 데이터의 중심을 구한 뒤, 그 중심을 원점에 맞춰 데이터를 평행 이동하는 것에서 시작한다. 이동해도 점들 사이의 상대적 위치는 바뀌지 않는다. 그다음 원점을 지나는 직선을 그어 놓고 조금씩 회전시키며 데이터에 가장 잘 맞는 선을 찾는다.

선이 얼마나 잘 맞는지는 각 점을 선 위로 투영한 뒤, 투영점과 원점 사이 거리를 잰다. 피타고라스 정리에 따라 '점에서 선까지의 거리를 최소화'하는 것과 '투영점에서 원점까지의 거리를 최대화'하는 것은 같은 결과를 낳는데, 후자가 계산이 쉬워 PCA는 투영점-원점 제곱거리의 합을 최대로 만드는 선을 택한다. 이렇게 찾은 선이 첫 번째 주성분(PC1)이다.

PC1은 원래 변수들을 일정 비율로 섞은 결과로 표현된다. 영상에서는 이를 '칵테일 레시피'에 빗대, 예컨대 유전자1 4 대 유전자2 1처럼 섞는다고 설명한다. 이 비율(로딩 점수)이 큰 변수일수록 데이터가 퍼진 방향을 더 많이 설명한다. 두 번째 주성분(PC2)은 PC1과 직각을 이루는 선으로 정해진다.

각 주성분이 설명하는 변동의 양이 고윳값이며, 이를 전체로 나눠 백분율로 표시한 것이 스크리 플롯이다. 예를 들어 PC1이 79%, PC2가 15%를 설명하면 둘만으로 94%를 담으므로 2차원 그래프가 원본을 충분히 대표한다. 반대로 뒤쪽 주성분들도 큰 비중을 차지하면 2차원 요약은 부정확해지지만, 그래도 표본 군집을 식별하는 데는 쓸 수 있다.

주요 인사이트

'점에서 선까지 거리 최소화'와 '투영점에서 원점까지 거리 최대화'가 수학적으로 같다는 점이 PCA 계산의 핵심 직관이다. 점과 원점 사이 거리는 고정돼 있어, 한쪽이 커지면 다른 쪽은 반드시 작아지기 때문이다.
주성분이 '변수들의 선형 결합'이라는 말은, 결국 원래 변수를 특정 비율로 섞었다는 뜻일 뿐 복잡한 개념이 아니다.
고유벡터·고윳값·특잇값·로딩 점수처럼 용어는 많지만, 실제로는 '가장 잘 맞는 선의 방향'과 '그 선이 설명하는 변동의 크기'라는 두 가지를 가리킨다.
주성분의 이론상 개수는 변수 수만큼이지만, 실제로는 변수 수와 표본 수 중 더 작은 값으로 제한된다.
스크리 플롯은 차원 축소를 무작정 믿지 않고, 2차원 요약이 데이터를 얼마나 정확히 담는지 수치로 점검하게 해 준다.

자주 묻는 질문

PCA는 무엇을 위해 쓰나요?

변수가 많아 직접 그릴 수 없는 고차원 데이터를 2차원 그래프로 압축해, 비슷한 표본끼리 모여 보이게 하고 어떤 변수가 데이터 분류에 가장 중요한지 파악하기 위해 씁니다.

첫 번째 주성분(PC1)은 어떻게 정해지나요?

데이터를 원점 중심으로 옮긴 뒤 원점을 지나는 직선을 회전시키며, 데이터를 그 선에 투영했을 때 투영점과 원점 사이 제곱거리의 합이 가장 커지는 선을 PC1으로 정합니다.

2차원 PCA 그래프가 믿을 만한지는 어떻게 아나요?

고윳값으로 각 주성분이 설명하는 변동 비율을 구해 스크리 플롯으로 봅니다. PC1과 PC2가 전체 변동의 대부분을 차지하면 2차원 요약이 원본을 충실히 대표한다고 볼 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗