AI VIDEO BRIEFING

거짓 발견율(FDR)이란? 다중검정의 거짓 양성을 줄이는 벤자미니-호크버그 방법

유전자 1만 개를 한꺼번에 검정하면 거짓 양성이 쏟아지는 다중검정 문제와, P값을 보정해 거짓 발견을 통제하는 FDR·벤자미니-호크버그 방법을 예시로 정리했습니다.

좋아 보이는 가짜 데이터를 걸러내는 법: 거짓 발견율(FDR) 쉽게 이해하기 영상 대표 이미지

핵심 메시지

  • 거짓 발견율(FDR)은 '좋아 보이지만 실제로는 의미 없는' 데이터를 걸러내는 도구다.
  • 1만 개 유전자를 한꺼번에 검정하면 0.05 기준에서도 약 500개의 거짓 양성이 생긴다.
  • 같은 분포에서 온 표본의 P값은 균등 분포를 이루지만, 다른 분포에서 오면 0 쪽으로 치우친다.
  • 벤자미니-호크버그 방법은 P값을 키우는 방향으로 보정해 거짓 양성 비율을 통제한다.
  • FDR 0.05 기준이면 유의하다고 보고된 결과 중 거짓 양성은 5% 미만이 된다.

쉽게 이해하기

고처리량 시퀀싱을 다뤄봤다면 거짓 발견율(FDR)을 들어봤을 것이다. 핵심 아이디어는 '좋아 보이는 나쁜 데이터'를 솎아내는 도구라는 점이다. 영상은 RNA 시퀀싱으로 유전자 발현을 측정하는 예로 시작하는데, 측정마다 값이 조금씩 달라 종 모양 분포를 이룬다.

같은 종류의 쥐에서 두 표본을 뽑아 비교하면 보통 두 표본이 겹쳐 P값이 0.05보다 크다. 그러나 드물게(약 5%) 겹치지 않아 P값이 0.05 미만인 거짓 양성이 나온다. 문제는 유전자가 1만 개일 때다. 5%면 약 500개가 흥미로워 보이지만 실제로는 의미 없는 거짓 양성이 된다.

같은 분포에서 얻은 1만 개의 P값은 각 구간에 약 5%씩 균등하게 분포한다. 반면 대조군과 약물군처럼 서로 다른 분포에서 오면 P값이 대부분 0.05 미만으로 치우친다. 0.05를 넘는 값은 표본이 겹친 거짓 음성이며, 표본 크기를 키우면 줄어든다.

실제 실험은 둘이 섞여 있다. 약물이 1,000개 유전자에 영향을 주면(치우친 P값) 나머지 9,000개는 영향이 없어(균등한 P값) 전체 히스토그램은 두 분포의 합이 된다. 균등하게 깔린 높이(예: 구간마다 약 450개)를 기준선으로 그으면 참 양성과 거짓 양성을 눈대중으로 구분할 수 있다.

벤자미니-호크버그 방법은 이 '눈대중 방법'을 수식으로 옮긴 것이다. P값을 더 크게 보정해, 보정 후 0.05 미만인 것만 유의로 보면 그중 거짓 양성은 5% 미만이 된다. 다만 참 양성이라도 원래 P값이 아주 작지 않으면 보정 후 탈락할 수 있다.

계산은 의외로 단순하다. P값을 작은 순으로 정렬해 순위를 매기고, 가장 큰 보정값은 원래 값과 같게 둔다. 그다음부터는 '직전 보정값'과 '현재 P값 × 전체 개수 ÷ 순위' 중 더 작은 값을 택해 나간다. 이 과정을 반복하면 거짓 양성이던 P값이 더 이상 유의하지 않게 된다.

주요 인사이트

  • 검정을 수천·수만 번 반복하면 우연만으로도 다수의 거짓 양성이 나오므로, 단일 P값 기준(0.05)만으로는 부족하다.
  • 같은 분포의 P값이 균등 분포를 이룬다는 사실이 거짓 양성의 기대 개수를 추정하는 토대가 된다.
  • 벤자미니-호크버그 보정은 P값을 키워 유의 판정을 보수적으로 만들고, 유의 결과 중 거짓 양성 비율을 원하는 수준으로 통제한다.
  • FDR 통제는 거짓 양성을 줄이는 대신 일부 참 양성을 놓칠 수 있는 트레이드오프를 동반한다.

자주 묻는 질문

거짓 발견율(FDR)이란 무엇인가요?

여러 검정에서 유의하다고 보고된 결과 중 실제로는 거짓 양성인 비율을 통제하는 개념이자 방법으로, 좋아 보이는 가짜 데이터를 걸러내는 도구입니다.

왜 유전자 1만 개를 검정하면 거짓 양성이 약 500개 생기나요?

0.05 기준에서는 같은 분포의 표본도 5%가 우연히 P<0.05가 되기 때문입니다. 1만 개의 5%면 약 500개가 거짓 양성으로 나타납니다.

벤자미니-호크버그 방법은 P값을 어떻게 바꾸나요?

P값을 더 크게 보정합니다. 정렬된 P값에 대해 '직전 보정값'과 '현재 P값 × 전체 개수 ÷ 순위' 중 더 작은 값을 택해 나갑니다.

같은 분포와 다른 분포의 P값 분포는 어떻게 다른가요?

같은 분포에서 온 P값은 0과 1 사이에 균등하게 퍼지고, 다른 분포에서 오면 0 쪽으로 크게 치우칩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#FDR#거짓발견율#다중검정#통계#데이터분석