AI VIDEO BRIEFING

MCMC란 무엇인가: 마르코프 체인 몬테카를로 표본추출의 원리와 정상분포·번인 쉽게 이해하기

기각 표본추출이 불규칙하거나 고차원인 분포에서 왜 비효율적인지부터, 마르코프 체인과 몬테카를로를 결합한 MCMC가 정상분포와 번인, 상세균형 조건을 통해 복잡한 분포에서 표본을 뽑아내는 원리까지 한국어로 차근차근 설명합니다.

출처: ritvikmath2021년 1월 20일AI 보조 요약

마르코프 체인 몬테카를로(MCMC)는 왜 필요할까: 복잡한 분포에서 표본을 뽑는 법 영상 대표 이미지

핵심 메시지

MCMC는 마르코프 체인과 몬테카를로 시뮬레이션을 결합해, 복잡하거나 고차원인 확률분포에서 표본을 뽑는 방법이다.
기존 기각 표본추출은 후보 분포를 목표 분포 위로 끌어올리는 배율 m이 커질수록 표본이 거의 채택되지 않아 극도로 비효율적이다.
MCMC는 직전 표본을 보고 다음 표본을 정한다 — 즉 표본들이 서로 의존하게 만들어 높은 밀도 영역에 더 오래 머문다.
목표 분포가 정상분포가 되도록 마르코프 체인을 설계하면, 일단 그 분포에 도달한 뒤로는 모든 표본이 목표 분포의 추출과 같아진다.
초기의 번인(burn-in) 표본은 버리고, 상세균형 조건으로 설계한 전이확률이 목표 분포를 정상분포로 갖는지 검증한다.

쉽게 이해하기

마르코프 체인 몬테카를로(MCMC)는 통계와 데이터 과학에서 핵심적인 두 도구, 즉 마르코프 체인과 몬테카를로 시뮬레이션을 하나로 합친 표본추출 기법이다. 이름이 길고 복잡해 보이지만, 핵심은 '직접 다루기 어려운 확률분포에서 어떻게든 표본을 뽑아내자'는 실용적인 목적에 있다.

이 기법이 왜 필요한지는 이전 단계의 방법인 기각 표본추출(rejection sampling)의 한계에서 출발한다. 기각 표본추출은 목표 분포 p(x)를 직접 알지 못해도, 다루기 쉬운 후보 분포 g(x)에 충분히 큰 배율 m을 곱해 목표 함수 위를 항상 덮도록 만든 뒤 후보를 던지고 채택·기각을 반복한다. 문제는 분포가 불규칙하거나 차원이 높아지면 이 m이 엄청나게 커져야 하고, 그러면 표본이 채택될 확률이 바닥으로 떨어져 원하는 개수를 모으는 데 사실상 영원이 걸린다는 점이다.

더 깊이 보면 기각 표본추출의 표본들은 서로 무관(독립)하다. 이는 장점이기도 하지만, 어쩌다 높은 밀도 영역에서 좋은 후보를 얻어도 '이 근처를 더 살펴봐야 한다'는 정보를 그냥 버리고 다음에는 또 처음부터 독립적으로 다시 뽑는다는 약점이 된다. MCMC는 바로 이 지점을 파고든다.

MCMC의 한 줄 요약은 '다음 표본이 직전 표본에 의존한다'는 것이다. 이전 상태에 따라 다음 상태가 정해진다는 원리는 곧 마르코프 체인의 작동 방식이며(첫 번째 MC), 이 체인을 앞으로 굴려 목표 분포에서의 추출을 흉내 내는 것이 몬테카를로 시뮬레이션이다(두 번째 MC). 초기 표본 x0에서 시작해 직전 표본을 보고 다음을 생성하는 과정을 계속 이어간다.

관건은 이 마르코프 체인을 어떻게 설계하느냐다. 해법은 정상분포(stationary distribution)에 있다. 마르코프 체인이 일단 정상분포에 도달하면 이후로는 영원히 그 분포에 머무른다. 따라서 정상분포가 정확히 목표 분포 p(x)가 되도록 체인을 설계하면, 어느 시점에 그 분포에 도달한 뒤의 모든 표본은 목표 분포에서 뽑은 것과 같아진다. 초반의 번인 표본은 아직 분포를 따르지 않으므로 버리고, 그 이후 표본만 취한다.

주요 인사이트

MCMC의 장점과 단점은 동전의 양면이다. 표본을 서로 의존하게 만든 덕분에 높은 밀도 영역을 더 효율적으로 탐색하지만, 그 대가로 표본들이 더 이상 독립이 아니라는 점은 단점으로 남는다.
정상분포의 '한 번 도달하면 머문다'는 성질이 MCMC를 가능하게 하는 핵심 원리다. 그래서 표본추출 문제는 '목표 분포를 정상분포로 갖는 체인을 설계하는 문제'로 바뀐다.
메트로폴리스-헤이스팅스나 깁스 표본추출 같은 구체적 알고리즘은 모두 MCMC라는 우산 아래의 방법들로, 전이확률을 정의하는 방식만 다르다.
상세균형 조건 p(x)·t(y|x) = p(y)·t(x|y)이 성립하면, 그 전이확률로 설계한 체인이 p를 정상분포로 가짐을 보장할 수 있어 알고리즘 검증의 기준이 된다.
기각 표본추출은 잘 생긴 1차원 분포에는 무난하지만, 봉우리가 여기저기 있거나 변수가 여럿인 고차원 실제 분포에서는 비효율이 폭발한다 — 바로 이런 상황이 MCMC가 빛나는 지점이다.

자주 묻는 질문

MCMC라는 이름의 두 'MC'는 각각 무엇을 뜻하나요?

첫 MC는 마르코프 체인으로, 다음 표본이 직전 표본에 의존한다는 원리를 가리킵니다. 두 번째 MC는 몬테카를로로, 이 체인을 굴려 목표 분포에서의 추출을 시뮬레이션한다는 뜻입니다.

번인(burn-in) 표본은 왜 버리나요?

체인이 정상분포(목표 분포)에 도달하기 전에 생성된 초기 표본들은 아직 목표 분포를 따르지 않기 때문입니다. 다만 결국 목표 분포에 도달하기 위해 거쳐야 하는 과정이므로 필요하긴 합니다.

기각 표본추출의 가장 큰 단점은 무엇인가요?

후보 분포를 목표 함수 위로 덮기 위해 곱하는 배율 m이 불규칙하거나 고차원인 분포에서는 매우 커지고, 그러면 채택 확률 f/(m·g)가 극히 작아져 표본을 거의 채택하지 못해 비효율적입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗