AI VIDEO BRIEFING

로지스틱 회귀 쉽게 이해하기: 선형 회귀와의 차이, S자 곡선과 확률, 최대우도 추정까지 정리

연속적인 값을 예측하는 선형 회귀와 달리, 로지스틱 회귀는 참인지 거짓인지를 가르는 분류에 쓰인다. 데이터에 맞추는 S자 곡선과 확률, 잔차 없이 곡선을 찾는 최대우도 추정의 원리까지 일상적인 비유로 차근차근 풀어봤다.

참인지 거짓인지 예측한다, 분류의 기본기 '로지스틱 회귀' 영상 대표 이미지

핵심 메시지

  • 로지스틱 회귀는 연속값이 아니라 '참/거짓' 같은 범주를 예측하는 분류 기법이다.
  • 데이터에 직선 대신 0에서 1 사이를 오가는 S자 곡선을 맞춰, 어떤 사건이 일어날 확률을 알려준다.
  • 확률이 50%를 넘으면 한쪽 범주로 분류하는 식으로 의사결정에 활용한다.
  • 선형 회귀와 달리 잔차가 없어 최소제곱법·R제곱을 쓸 수 없고, 대신 최대우도 추정으로 곡선을 찾는다.
  • 연속형(몸무게·나이)과 이산형(유전형) 변수를 함께 쓸 수 있고, 각 변수가 예측에 쓸모 있는지 검정할 수 있다.

쉽게 이해하기

로지스틱 회귀를 이해하려면 먼저 선형 회귀를 떠올리는 게 좋다. 선형 회귀는 데이터에 직선을 맞춰 두 변수가 상관 있는지(R제곱), 그 결과가 통계적으로 유의한지(p값)를 따지고, 새 값을 예측하는 데 쓴다. 영상은 데이터로 무언가를 예측하는 이 작업 자체가 머신러닝의 한 형태라고 짚는다.

로지스틱 회귀는 이 선형 회귀와 비슷하지만 결정적으로 다르다. 몸무게처럼 연속적인 값을 예측하는 대신, '이 쥐가 비만인가 아닌가'처럼 참·거짓을 예측한다. 이를 위해 직선이 아니라 0에서 1 사이를 부드럽게 오르내리는 S자 모양의 로지스틱 곡선을 데이터에 맞춘다.

이 곡선의 높이는 곧 확률이다. 아주 무거운 쥐는 비만일 확률이 높고, 중간 무게의 쥐는 약 50%, 가벼운 쥐는 낮은 확률로 읽힌다. 확률 자체를 알려주지만 실제로는 분류에 많이 쓰여, 예컨대 비만 확률이 50%를 넘으면 '비만', 아니면 '비만 아님'으로 나눈다.

선형 회귀처럼 변수를 하나만 쓸 수도, 몸무게·유전형·나이처럼 여러 개를 섞을 수도 있다. 즉 연속형과 이산형 데이터를 모두 다룬다. 다만 복잡한 모형과 단순한 모형을 쉽게 비교하긴 어려워, 각 변수의 효과가 0과 의미 있게 다른지를 따로 검정한다. 영상은 별자리처럼 예측에 전혀 도움이 안 되는 변수는 빼서 시간과 공간을 아낄 수 있다고 비유한다.

가장 큰 기술적 차이는 곡선을 맞추는 방식이다. 선형 회귀는 잔차의 제곱합을 최소화하는 최소제곱법을 쓰지만, 로지스틱 회귀에는 같은 의미의 잔차가 없어 최소제곱법도 R제곱도 쓸 수 없다. 대신 최대우도 추정을 사용한다. 곡선을 하나 정해 관측된 데이터가 나올 우도를 계산하고, 곡선을 조금씩 옮겨가며 다시 계산하기를 반복해, 우도가 가장 큰 곡선을 최종 선택한다.

주요 인사이트

  • '예측이 곧 머신러닝'이라는 관점에서 보면 선형 회귀도 이미 머신러닝의 한 종류이며, 로지스틱 회귀는 그 분류 버전이다.
  • 곡선이 확률을 출력하기 때문에 단순한 예/아니오를 넘어 '얼마나 확신하는가'까지 함께 제공하는 것이 로지스틱 회귀의 강점이다.
  • 잔차 개념이 없다는 한 가지 차이가 최소제곱법·R제곱을 못 쓰게 만들고, 그 빈자리를 최대우도 추정이 메운다는 점이 핵심이다.
  • 변수의 효과가 0과 다른지 검정하는 절차 덕분에 쓸모없는 변수를 골라내 모형을 간결하게 유지할 수 있다.

자주 묻는 질문

로지스틱 회귀와 선형 회귀의 가장 큰 차이는 무엇인가요?

선형 회귀는 몸무게 같은 연속적인 값을 직선으로 예측하지만, 로지스틱 회귀는 참·거짓 같은 범주를 S자 곡선으로 예측해 분류에 쓴다는 점이 다릅니다.

로지스틱 회귀는 왜 최소제곱법 대신 최대우도를 쓰나요?

로지스틱 회귀에는 선형 회귀와 같은 잔차 개념이 없어 최소제곱법과 R제곱을 쓸 수 없습니다. 대신 곡선을 옮겨가며 데이터의 우도를 계산해 가장 큰 값을 주는 곡선을 고르는 최대우도 추정을 사용합니다.

로지스틱 회귀는 어떤 종류의 데이터를 다룰 수 있나요?

몸무게·나이 같은 연속형 데이터와 유전형 같은 이산형 데이터를 모두 사용할 수 있으며, 각 변수가 예측에 실제로 도움이 되는지도 검정할 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#로지스틱회귀#머신러닝#분류#최대우도#통계