AI VIDEO BRIEFING

정밀도-재현율 곡선(PR Curve)과 AUPRC 정리: ROC 곡선과의 차이와 불균형 데이터 평가법

임계값에 따라 달라지는 정밀도와 재현율로 그리는 PR 곡선과 그 아래 면적(AUPRC)의 의미, 양성 비율로 정해지는 기준선 계산, 완벽한 분류기의 모습, 그리고 클래스 불균형에서 ROC 곡선보다 PR 곡선을 써야 하는 이유를 정리했다.

출처: Rachit Toshniwal2020년 9월 10일AI 보조 요약

정밀도-재현율 곡선과 AUPRC: 불균형 데이터에서 분류기를 제대로 평가하는 법 영상 대표 이미지

핵심 메시지

PR 곡선은 세로축에 정밀도, 가로축에 재현율을 두고, 여러 임계값에서 얻은 혼동행렬마다 두 지표를 계산해 그린 곡선이다.
완벽한 분류기는 정밀도와 재현율이 모두 1인 (1,1) 지점에 놓이며, 이때 곡선 아래 면적(AUC)은 최댓값인 1이 된다.
여러 분류기 중에서는 (1,1)에 가깝고 AUC가 큰 쪽이 더 우수하며, 임계값은 예측 확률의 고유값들을 기준으로 정해진다.
PR 곡선의 기준선 면적은 전체 표본 중 양성 표본의 비율로, 이 값과 비교해 분류기가 쓸 만한지 판단한다.
참 음성이 매우 많은 심한 불균형 데이터에서는 ROC 곡선이 오해를 줄 수 있어, 참 음성을 쓰지 않는 PR 곡선이 더 적합하다.

쉽게 이해하기

발표자는 분류기 평가 도구로 정밀도-재현율(PR) 곡선과 그 아래 면적을 설명한다. 재현율은 실제로 양성인 경우 중 올바르게 맞힌 비율이고, 정밀도는 양성이라고 예측한 경우 중 실제로 맞힌 비율이다. 특정 분류기에 대해 임계값을 바꾸면 서로 다른 혼동행렬이 나오고, 각 혼동행렬마다 정밀도와 재현율을 계산해 곡선을 그린다.

완벽한 분류기는 어떤 데이터도 잘못 분류하지 않으므로 정밀도와 재현율이 모두 1이 되고, 곡선 위에서 (1,1) 지점에 위치한다. 재현율과 정밀도가 모두 0에서 1 사이를 움직이므로 곡선 아래 면적의 최댓값은 1이다. 예컨대 음성 셋과 양성 셋으로 이뤄진 표본에서 모델이 음성에는 1%, 양성에는 99% 확률을 부여할 만큼 좋다면 어떤 임계값에서도 실수가 없어 정밀도·재현율이 1이 된다.

임계값은 내부적으로 예측 확률의 고유값들을 보고 정해진다. 위 예처럼 고유 확률이 0.01과 0.99 둘뿐이면 두 개의 임계값으로 두 개의 혼동행렬을 만들어 곡선을 그린다. 분류기 셋을 비교할 때는 (1,1)에 가장 가깝고 면적이 가장 큰 분류기가 최선이고, 가장 먼 분류기가 최악이다.

PR 곡선의 기준선 면적은 전체 표본 수 대비 양성 표본 수로 정해진다. 표본 100개 중 양성이 20개라면 기준선은 0.2(20%)다. 이 기준선과 비교해 면적이 0.25면 형편없는 분류기, 0.5·0.6·0.7이면 좋은 분류기로 본다.

발표자는 ROC 곡선과 PR 곡선을 언제 써야 하는지도 짚는다. 참 음성이 매우 많은 심한 불균형 데이터에서는 ROC의 가로축인 거짓 양성률이 아주 작아져 면적이 1에 가깝게 나오는데, 이는 분류기가 좋아서가 아니라 데이터가 불균형해서 생기는 착시다. 반면 PR 곡선의 정밀도와 재현율은 참 음성을 전혀 쓰지 않으므로, 참 음성이 매우 많거나 중요하지 않은 정보 검색 같은 문제에 더 적합하다.

주요 인사이트

같은 분류기라도 임계값을 어떻게 잡느냐에 따라 정밀도와 재현율이 달라지므로, 곡선 전체로 성능을 보는 관점이 중요하다.
곡선 아래 면적(AUPRC)은 그 자체로 좋고 나쁨이 정해지지 않고, 양성 비율로 정해지는 기준선과 견줘야 의미가 생긴다.
ROC가 높게 나온다고 무조건 좋은 분류기가 아니며, 심한 불균형에서는 참 음성에 휘둘리지 않는 PR 곡선이 더 정직한 신호를 준다.
정보 검색처럼 참 음성이 사실상 의미 없는 문제에서는 참 양성 극대화에 초점을 둔 PR 곡선이 자연스러운 평가 도구가 된다.

자주 묻는 질문

PR 곡선의 두 축은 각각 무엇을 뜻하나?

세로축은 정밀도, 가로축은 재현율이다. 재현율은 실제 양성 중 올바르게 맞힌 비율이고, 정밀도는 양성으로 예측한 것 중 실제로 맞힌 비율이다. 임계값을 바꿔 가며 각 혼동행렬에서 두 값을 계산해 곡선을 그린다.

PR 곡선의 기준선(baseline) 면적은 어떻게 구하나?

전체 표본 수 대비 양성 표본 수의 비율로 정한다. 예를 들어 표본 100개 중 양성이 20개면 기준선 면적은 0.2다. 분류기의 면적이 이 기준선보다 얼마나 높은지로 성능을 가늠한다.

불균형 데이터에서 ROC보다 PR 곡선이 나은 이유는?

참 음성이 매우 많으면 ROC의 거짓 양성률이 지나치게 작아져 면적이 1에 가깝게 부풀려지는 착시가 생긴다. PR 곡선의 정밀도와 재현율은 참 음성을 쓰지 않으므로, 참 음성이 많거나 중요하지 않은 상황에서 더 정직하게 분류기를 평가한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗