AI VIDEO BRIEFING

인과 추론이란 무엇인가: 무작위 대조 실험 없이 과거 데이터로 교란 변수와 반사실을 다루는 법

A/B 테스트 같은 무작위 대조 실험을 할 수 없을 때, 과거에 쌓인 관측 데이터만으로 인과를 추정하는 인과 추론을 알아본다. 교란 변수와 선택 편향, 반사실, 평균 처치 효과의 개념을 독감 약 복용 사례로 쉽게 정리했다.

출처: CodeEmporium2022년 1월 3일AI 보조 요약

실험 없이 인과를 따진다, 관측 데이터로 하는 '인과 추론' 영상 대표 이미지

핵심 메시지

무작위 대조 실험(A/B 테스트)은 변수를 통제해 인과를 밝히는 가장 확실한 방법이지만, 비용·시간·현실적 제약으로 불가능할 때가 많다.
그럴 때는 이미 존재하는 과거 관측 데이터로 무작위 실험을 흉내 내 인과를 추정하는데, 이것이 인과 추론이다.
관측 데이터의 세 가지 함정은 교란 변수, 선택 편향, 그리고 반사실(있었을 법한 결과)이다.
교란 변수를 보정하려면 짝짓기(matching)나 머신러닝으로 각 개인의 반사실을 추정해 평균 처치 효과(ATE)를 계산한다.
집단별로 효과가 다른 '처치 이질성'을 조건부 평균 처치 효과(CATE)로 살피면 더 나은 정책 결정을 내릴 수 있다.

쉽게 이해하기

영상은 먼저 무작위 대조 실험(업계 용어로 A/B 테스트)을 설명한다. 이커머스에서 이메일이 구매 전환을 높이는지 알고 싶다면, 사용자를 무작위로 둘로 나눠 한 집단에만 이메일을 보내고 전환율을 비교한다. 무작위 배정으로 다른 변수의 영향을 '통제'하기 때문에, 차이가 나타나면 이메일이 전환을 일으켰다고 자신 있게 말할 수 있다.

문제는 이런 실험을 늘 할 수 있는 게 아니라는 점이다. 옥외 광고판의 효과를 보려고 도시마다 무작위로 광고판을 세울 수는 없고, 실험에 너무 오랜 시간이 걸리기도 한다. 그래서 이미 쌓인 과거 데이터로 추론하게 되는데, 관측 데이터는 지저분해서 변수들을 따로 보정해 줘야 한다.

첫 번째 함정은 교란 변수다. 독감 치료제를 임상 시험할 때 치료군은 평균 35세, 대조군은 65세였다면, 치료군이 더 많이 나은 게 약 덕분인지 단지 젊어서인지 알 수 없다. 여기서 나이가 교란 변수다. 이는 곧 두 번째 함정인 선택 편향으로 이어진다. 치료군이 젊은 사람에 치우쳐 전체 모집단을 대표하지 못하는 상황이다.

세 번째 함정은 반사실이다. 약을 먹은 사람이 '만약 먹지 않았다면 어땠을까', 안 먹은 사람이 '먹었다면 어땠을까'를 따져야 사과 대 사과의 공정한 비교가 된다. 이를 추정하려면 같은 나이의 다른 처치를 받은 사람을 찾는 짝짓기나, 나이와 처치를 입력해 결과를 예측하는 머신러닝 모형을 쓴다. 또한 인과 그래프(방향성 비순환 그래프), SUTVA, 무시가능성 같은 가정들이 과거 데이터를 무작위 실험처럼 다루기 위한 전제로 필요하다.

실제 계산에서는 단순히 '약 먹고 나은 비율 0.6'에서 '안 먹고 나은 비율 0.4'를 빼 0.2로 보면 나이 차이에 속는다. 반사실을 채워 개인별 처치 효과를 구하고 평균 내면 평균 처치 효과는 0.1로 줄어든다. 더 나아가 나이로 조건을 건 CATE를 보면 35세 이상은 +0.4, 미만은 +0.2로 효과가 달라, 결국 이 약은 고령 환자에게만 처방하고 젊은 사람은 자연 회복에 맡기는 게 합리적이라는 결론을 무작위 실험 없이 과거 데이터만으로 끌어낸다.

주요 인사이트

무작위 배정의 본질은 '다른 모든 변수를 평균적으로 같게 만들어' 오직 처치만 차이 나게 하는 데 있다. 이를 못 할 때 그 일을 사후에 떠맡는 것이 인과 추론이다.
단순 비율 차이(0.2)와 교란을 보정한 평균 처치 효과(0.1)의 격차는, 보정 없이 관측 데이터를 읽으면 결론이 통째로 뒤집힐 수 있음을 보여준다.
전체 평균 효과만 보면 모두에게 약을 권하게 되지만, 조건부 효과(CATE)를 보면 고령층에만 효과가 있다는 사실이 드러난다. 평균이 가리는 이질성을 봐야 좋은 정책이 나온다.
인과 추론은 마법이 아니라 가정 위에 선다. 누락된 교란 변수가 없다는 무시가능성 같은 전제가 깨지면 결론도 흔들린다.

자주 묻는 질문

인과 추론은 왜 필요한가요?

원인과 결과를 가장 확실히 밝히는 무작위 대조 실험을 비용·시간·현실적 제약 때문에 할 수 없는 경우가 많기 때문입니다. 이때 이미 존재하는 과거 관측 데이터로 무작위 실험을 흉내 내 인과를 추정합니다.

교란 변수가 왜 문제가 되나요?

교란 변수는 처치와 결과 모두에 영향을 주는 통제되지 않은 변수입니다. 예컨대 치료군과 대조군의 나이가 다르면, 결과 차이가 약 때문인지 나이 때문인지 구분할 수 없게 됩니다.

평균 처치 효과와 조건부 평균 처치 효과는 어떻게 다른가요?

평균 처치 효과(ATE)는 전체 집단의 개인별 효과를 평균한 값이고, 조건부 평균 처치 효과(CATE)는 나이 같은 특정 조건으로 나눠 본 효과입니다. 영상에서는 ATE가 +0.1이지만 35세 이상은 +0.4, 미만은 +0.2로 집단마다 효과가 달랐습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗