AI VIDEO BRIEFING

혼동 행렬 완벽 이해: 참·거짓 양성과 음성 네 칸으로 머신러닝 분류 모델 성능 비교하기

혼동 행렬은 분류 모델이 무엇을 맞히고 무엇을 틀렸는지 한눈에 보여 주는 표입니다. 참 양성·거짓 음성 등 네 칸의 의미와, 심장병 예측 예시로 여러 모델의 성능을 비교하는 방법을 쉽게 정리했습니다.

혼동 행렬(Confusion Matrix): 머신러닝 모델이 무엇을 맞히고 틀렸는지 보는 표 영상 대표 이미지

핵심 메시지

  • 혼동 행렬은 분류 모델이 무엇을 맞히고 무엇을 틀렸는지 표 하나로 정리해 보여 주는 평가 도구다.
  • 행은 모델의 예측, 열은 실제 정답을 나타내며, 대각선 칸은 맞힌 경우, 나머지 칸은 틀린 경우다.
  • 두 가지를 분류할 때는 참 양성·참 음성·거짓 양성·거짓 음성이라는 네 칸이 만들어진다.
  • 같은 데이터에 여러 방법을 적용해 각각의 혼동 행렬을 비교하면 어떤 모델이 더 나은지 고를 수 있다.
  • 예측할 대상이 N가지면 행렬의 크기도 N×N으로 커진다.

쉽게 이해하기

가슴 통증, 혈액 순환, 동맥 막힘, 체중 같은 임상 측정값으로 어떤 사람이 심장병에 걸릴지 예측한다고 해 보자. 로지스틱 회귀, k-최근접 이웃, 랜덤 포레스트 등 선택할 수 있는 방법은 많다. 문제는 어떤 방법이 우리 데이터에 가장 잘 맞는지 판단하는 일이다. 이를 위해 데이터를 학습용과 검증용으로 나누고, 여러 방법을 학습시킨 뒤 검증용 데이터로 성능을 비교한다.

각 방법의 성능을 요약하는 한 가지 방법이 혼동 행렬이다. 행은 알고리즘의 예측을, 열은 알려진 실제 정답을 나타낸다. 심장병 여부처럼 두 가지만 구분할 때는 네 칸이 생긴다. 왼쪽 위는 심장병 환자를 옳게 맞힌 참 양성, 오른쪽 아래는 건강한 사람을 옳게 맞힌 참 음성이다. 왼쪽 아래는 환자를 건강하다고 잘못 본 거짓 음성, 오른쪽 위는 건강한 사람을 환자라고 잘못 본 거짓 양성이다.

예를 들어 랜덤 포레스트를 검증 데이터에 적용했더니 참 양성 142건, 참 음성 110건을 옳게 분류했고, 심장병 환자 29명을 건강하다고(거짓 음성), 건강한 사람 22명을 환자라고(거짓 양성) 잘못 분류했다. 대각선의 칸은 옳게 분류한 횟수, 대각선을 벗어난 칸은 틀린 횟수를 보여 준다. k-최근접 이웃은 환자(107 대 142)와 비환자(79 대 110) 모두에서 랜덤 포레스트보다 못했으므로, 둘 중에서는 랜덤 포레스트를 택하게 된다.

한편 로지스틱 회귀의 혼동 행렬은 랜덤 포레스트와 매우 비슷해 어느 쪽이 더 낫다고 단정하기 어려웠다. 이런 경우에는 민감도, 특이도, ROC, AUC 같은 더 정교한 지표가 판단을 돕는다. 또한 혼동 행렬은 두 가지 분류에만 쓰이는 것이 아니다. 세 가지를 예측하면 3×3, 마흔 가지를 예측하면 40×40 행렬이 되며, 어느 경우든 대각선은 옳게 맞힌 칸, 나머지는 틀린 칸이라는 원칙은 똑같다.

주요 인사이트

  • 단순한 정확도 하나가 아니라 어떤 종류의 오류(거짓 양성과 거짓 음성)를 얼마나 냈는지까지 구분해 보여 주는 것이 혼동 행렬의 핵심 가치다.
  • 같은 검증 데이터에 여러 모델을 적용해 혼동 행렬을 나란히 놓으면, 모델 선택을 직관적이고 객관적으로 할 수 있다.
  • 두 모델의 혼동 행렬이 너무 비슷해 우열을 가리기 어려울 때는 민감도·특이도·ROC·AUC 같은 추가 지표가 필요하다.
  • 혼동 행렬의 크기는 예측 대상의 가짓수로 정해지므로, 다중 분류 문제에도 그대로 확장해 적용할 수 있다.

자주 묻는 질문

혼동 행렬의 행과 열은 각각 무엇을 의미하나요?

이 설명에서는 행이 머신러닝 알고리즘의 예측을, 열이 알려진 실제 정답을 나타냅니다. 그래서 대각선에 놓인 칸은 예측과 정답이 일치한 경우, 대각선을 벗어난 칸은 알고리즘이 틀린 경우가 됩니다.

참 양성, 참 음성, 거짓 양성, 거짓 음성은 어떻게 다른가요?

심장병 예시에서 참 양성은 환자를 옳게 환자로, 참 음성은 건강한 사람을 옳게 건강하다고 맞힌 경우입니다. 거짓 음성은 환자를 건강하다고 잘못 본 경우, 거짓 양성은 건강한 사람을 환자라고 잘못 본 경우입니다.

혼동 행렬은 세 가지 이상을 분류할 때도 쓸 수 있나요?

네. 예측할 대상이 세 가지면 3×3, 마흔 가지면 40×40 행렬이 됩니다. 행렬이 아무리 커져도 대각선은 옳게 분류한 칸, 나머지는 틀린 칸이라는 원칙은 동일하게 유지됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식