AI VIDEO BRIEFING
MCMC란 무엇인가: 마르코프 체인 몬테카를로 표본추출의 원리와 정상분포·번인 쉽게 이해하기
기각 표본추출이 불규칙하거나 고차원인 분포에서 왜 비효율적인지부터, 마르코프 체인과 몬테카를로를 결합한 MCMC가 정상분포와 번인, 상세균형 조건을 통해 복잡한 분포에서 표본을 뽑아내는 원리까지 한국어로 차근차근 설명합니다.

핵심 메시지
쉽게 이해하기
마르코프 체인 몬테카를로(MCMC)는 통계와 데이터 과학에서 핵심적인 두 도구, 즉 마르코프 체인과 몬테카를로 시뮬레이션을 하나로 합친 표본추출 기법이다. 이름이 길고 복잡해 보이지만, 핵심은 '직접 다루기 어려운 확률분포에서 어떻게든 표본을 뽑아내자'는 실용적인 목적에 있다.
이 기법이 왜 필요한지는 이전 단계의 방법인 기각 표본추출(rejection sampling)의 한계에서 출발한다. 기각 표본추출은 목표 분포 p(x)를 직접 알지 못해도, 다루기 쉬운 후보 분포 g(x)에 충분히 큰 배율 m을 곱해 목표 함수 위를 항상 덮도록 만든 뒤 후보를 던지고 채택·기각을 반복한다. 문제는 분포가 불규칙하거나 차원이 높아지면 이 m이 엄청나게 커져야 하고, 그러면 표본이 채택될 확률이 바닥으로 떨어져 원하는 개수를 모으는 데 사실상 영원이 걸린다는 점이다.
더 깊이 보면 기각 표본추출의 표본들은 서로 무관(독립)하다. 이는 장점이기도 하지만, 어쩌다 높은 밀도 영역에서 좋은 후보를 얻어도 '이 근처를 더 살펴봐야 한다'는 정보를 그냥 버리고 다음에는 또 처음부터 독립적으로 다시 뽑는다는 약점이 된다. MCMC는 바로 이 지점을 파고든다.
MCMC의 한 줄 요약은 '다음 표본이 직전 표본에 의존한다'는 것이다. 이전 상태에 따라 다음 상태가 정해진다는 원리는 곧 마르코프 체인의 작동 방식이며(첫 번째 MC), 이 체인을 앞으로 굴려 목표 분포에서의 추출을 흉내 내는 것이 몬테카를로 시뮬레이션이다(두 번째 MC). 초기 표본 x0에서 시작해 직전 표본을 보고 다음을 생성하는 과정을 계속 이어간다.
관건은 이 마르코프 체인을 어떻게 설계하느냐다. 해법은 정상분포(stationary distribution)에 있다. 마르코프 체인이 일단 정상분포에 도달하면 이후로는 영원히 그 분포에 머무른다. 따라서 정상분포가 정확히 목표 분포 p(x)가 되도록 체인을 설계하면, 어느 시점에 그 분포에 도달한 뒤의 모든 표본은 목표 분포에서 뽑은 것과 같아진다. 초반의 번인 표본은 아직 분포를 따르지 않으므로 버리고, 그 이후 표본만 취한다.
주요 인사이트
- MCMC의 장점과 단점은 동전의 양면이다. 표본을 서로 의존하게 만든 덕분에 높은 밀도 영역을 더 효율적으로 탐색하지만, 그 대가로 표본들이 더 이상 독립이 아니라는 점은 단점으로 남는다.
- 정상분포의 '한 번 도달하면 머문다'는 성질이 MCMC를 가능하게 하는 핵심 원리다. 그래서 표본추출 문제는 '목표 분포를 정상분포로 갖는 체인을 설계하는 문제'로 바뀐다.
- 메트로폴리스-헤이스팅스나 깁스 표본추출 같은 구체적 알고리즘은 모두 MCMC라는 우산 아래의 방법들로, 전이확률을 정의하는 방식만 다르다.
- 상세균형 조건 p(x)·t(y|x) = p(y)·t(x|y)이 성립하면, 그 전이확률로 설계한 체인이 p를 정상분포로 가짐을 보장할 수 있어 알고리즘 검증의 기준이 된다.
- 기각 표본추출은 잘 생긴 1차원 분포에는 무난하지만, 봉우리가 여기저기 있거나 변수가 여럿인 고차원 실제 분포에서는 비효율이 폭발한다 — 바로 이런 상황이 MCMC가 빛나는 지점이다.
자주 묻는 질문
MCMC라는 이름의 두 'MC'는 각각 무엇을 뜻하나요?
첫 MC는 마르코프 체인으로, 다음 표본이 직전 표본에 의존한다는 원리를 가리킵니다. 두 번째 MC는 몬테카를로로, 이 체인을 굴려 목표 분포에서의 추출을 시뮬레이션한다는 뜻입니다.
번인(burn-in) 표본은 왜 버리나요?
체인이 정상분포(목표 분포)에 도달하기 전에 생성된 초기 표본들은 아직 목표 분포를 따르지 않기 때문입니다. 다만 결국 목표 분포에 도달하기 위해 거쳐야 하는 과정이므로 필요하긴 합니다.
기각 표본추출의 가장 큰 단점은 무엇인가요?
후보 분포를 목표 함수 위로 덮기 위해 곱하는 배율 m이 불규칙하거나 고차원인 분포에서는 매우 커지고, 그러면 채택 확률 f/(m·g)가 극히 작아져 표본을 거의 채택하지 못해 비효율적입니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗