AI VIDEO BRIEFING

차원의 저주 쉽게 이해하기: 고차원에서 머신러닝의 직관과 거리가 무너지는 이유와 대응법

차원이 높아질수록 거리와 데이터에 대한 직관이 무너지는 '차원의 저주'를 기하학과 예시로 풀었다. 데이터 요구량의 지수적 증가, 거의 직교하는 무작위 벡터, 차원 축소 같은 대응법까지 차근차근 정리한다.

차원의 저주: 고차원에서 머신러닝의 직관이 무너지는 이유 영상 대표 이미지

핵심 메시지

  • 차원이 높아지면 저차원에서 통하던 직관이 무너진다. 같은 점 개수로도 공간은 점점 텅 비게 된다.
  • 고차원에서는 거의 모든 점이 중심에서 멀어지고, 초구의 부피는 표면 근처 얇은 껍질에 몰린다.
  • 같은 밀도로 공간을 채우는 데 필요한 데이터 양이 차원 수에 따라 지수적으로 늘어난다.
  • 차원 축소, 특징 선택, 정규화, 데이터 추가 등으로 저주를 완화할 수 있다.

쉽게 이해하기

영상은 거의 모든 머신러닝 실무자를 괴롭히는 '차원의 저주'를 다룬다. 점·선·정사각형·정육면체처럼 우리가 그릴 수 있는 차원을 넘어서면 직관이 어긋나기 시작한다. 예를 들어 9개의 점은 1차원 직선은 꽤 잘 덮지만, 같은 9개가 2차원 정사각형에서는 눈에 띄는 빈틈을 남기고, 3차원에서는 공간이 대부분 비어 버린다. 차원이 더 오를수록 이 불균형은 심해져 전통적 알고리즘이 데이터 부족에 시달린다.

거리의 직관도 깨진다. 한 변이 1인 정사각형에서 중심부터 모서리까지 거리는 √2≈1.41이고, 정육면체에서는 √3≈1.73이다. 10차원 초입방체에서는 √10≈3.16, 100차원에서는 정확히 10, 1000차원에서는 √1000≈31.6이 된다. 차원이 오를수록 거의 모든 점이 중심에서 멀어지고, 초구의 부피가 표면 근처 얇은 껍질에 집중돼 거리 측정이 점점 의미를 잃는다.

단위 초입방체 안에 각 면에 닿는 초구를 넣었을 때의 부피 비율은 이를 극적으로 보여준다. 2차원에서는 π/4≈0.785로 약 79%지만, 3차원에서는 약 52%, 5차원에서는 약 16.45%, 10차원에서는 약 0.25%로 떨어진다. 즉 고차원에서는 부피 대부분이 중심이 아니라 초입방체의 구석에 몰려 있다. 2·3차원의 직관이 완전히 빗나가는 지점이다.

머신러닝에 직접 영향을 주는 부분은 데이터 요구량이다. 한 차원을 5개의 균등한 점으로 표본화하려면 5개면 되지만, 2차원에서는 5²=25개, 3차원에서는 5³=125개가 필요하다. 차원이 오를수록 같은 밀도를 유지하는 데 필요한 데이터가 지수적으로 늘어난다는 것이 차원의 저주의 본질이다. 또 고차원에서 무작위로 찍은 두 벡터는 거의 직교하는 경향이 있는데, 코사인 유사도의 기댓값은 0이고 분산은 1/D에 비례해 각도가 90°에 점점 몰린다.

대응법으로는 여러 가지가 제시된다. 첫째, PCA나 UMAP 같은 차원 축소로 중요한 관계를 보존하며 저차원에 투영한다. 둘째, 특징 선택으로 가장 관련 있는 차원만 남긴다. 셋째, 국소 민감 해싱처럼 고차원에 맞춰 설계된 알고리즘으로 근사 최근접 탐색을 효율화한다. 넷째, 정규화로 고차원에서 특히 심해지는 과적합을 막는다. 다섯째, 빈 공간을 채우도록 데이터를 더 모은다. 다만 영상은 고차원이 늘 나쁜 것만은 아니라며, 저차원에서 선형 분리가 안 되던 데이터가 고차원에서는 분리되는 '차원의 축복'도 있어 일부 신경망이 분류 전에 입력을 매우 높은 차원으로 사상한다고 덧붙인다.

주요 인사이트

  • 차원이 오르면 데이터가 '희소'해진다. 점의 수가 같아도 채워야 할 공간이 폭발적으로 커지기 때문이다.
  • 거리 기반 알고리즘이 고차원에서 흔들리는 이유는, 거의 모든 점이 비슷하게 멀어져 거리의 변별력이 사라지기 때문이다.
  • 고차원에서 무작위 벡터가 거의 직교한다는 사실은 수학적으로 증명된, 그러나 반직관적인 기하학적 결과다.
  • 차원의 저주는 양면적이다. 딥러닝에서는 고차원 사상이 비선형 데이터를 분리 가능하게 만드는 '축복'이 되기도 한다.

자주 묻는 질문

차원의 저주란 무엇인가요?

차원이 높아질수록 같은 밀도로 공간을 채우는 데 필요한 데이터가 지수적으로 늘고, 거의 모든 점이 중심에서 멀어져 거리 측정이 의미를 잃는 현상입니다. 그 결과 거리 기반의 전통적 머신러닝 알고리즘이 데이터 부족과 변별력 저하에 시달립니다.

왜 고차원에서는 데이터가 그렇게 많이 필요한가요?

한 차원을 5개 점으로 채우면 5개면 되지만, 2차원은 5²=25개, 3차원은 5³=125개가 필요합니다. 차원 수만큼 지수로 늘어나기 때문에, 같은 커버리지를 유지하려면 데이터 양이 폭발적으로 증가합니다.

차원의 저주는 어떻게 완화하나요?

PCA·UMAP 같은 차원 축소, 관련 차원만 남기는 특징 선택, 국소 민감 해싱 같은 고차원 전용 알고리즘, 과적합을 막는 정규화, 그리고 데이터 추가 등이 있습니다. 한편 딥러닝에서는 고차원 사상이 오히려 분리를 돕는 '차원의 축복'이 되기도 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식