AI VIDEO BRIEFING

선형 회귀 핵심 정리 — 최소제곱법, R제곱, p값 쉽게 이해하기

데이터에 직선을 맞추는 선형 회귀에서 잔차 제곱합과 최소제곱법으로 최적의 선을 찾고, R제곱과 p값으로 예측의 정확도와 신뢰도를 정량화하는 방법을 사례로 풀어낸다.

선형 회귀의 본질: 최소제곱법·R제곱·p값으로 예측을 믿어도 될지 판단하기 영상 대표 이미지

핵심 메시지

  • 선형 회귀는 데이터에 직선을 맞춰 예측하는 기법이며, 예측의 품질은 잔차 제곱합(SSR)으로 측정한다.
  • 잔차를 제곱하는 이유는 양수·음수가 상쇄되는 것을 막고 이후 계산을 쉽게 하기 위해서이며, SSR을 최소화하는 선을 찾는 방법을 최소제곱법이라 한다.
  • R제곱은 평균만 쓸 때보다 직선이 잔차 제곱합을 몇 퍼센트 줄였는지를 0~1 값으로 나타내며, 예측의 정확도를 정량화한다.
  • p값은 무작위 데이터가 같은 수준의 결과를 낼 확률을 알려주며, R제곱만으로는 부족한 예측 신뢰도를 보완한다.

쉽게 이해하기

영상은 "매장 세 곳을 새로 지어야 할까, 그리고 그 판단을 얼마나 확신할 수 있을까"라는 경영 질문으로 시작한다. 매장 수와 매출 데이터에 직선을 맞추면 예측이 가능하지만, 어떤 직선이 가장 좋은지는 한눈에 드러나지 않는다.

직선의 품질은 잔차 제곱합으로 잰다. 잔차는 실제값과 예측값의 차이로, Y축에 평행하게 그어 같은 매장 수에 대응시킨다. 잔차를 그냥 더하면 양수와 음수가 상쇄돼 서로 다른 직선이 같은 합을 가질 수 있으므로, 잔차를 제곱해 모두 양수로 만든 뒤 더한다. 잔차 제곱합이 작을수록 더 잘 맞는 직선이다.

Y절편을 조금씩 바꿔 가며 잔차 제곱합을 그래프로 그리면 아래로 볼록한 곡선이 나오고, 그 바닥(미분값이 0이 되는 지점)이 최적값이다. 기울기에도 같은 방법을 적용한다. 이렇게 잔차 제곱합을 최소화하는 선을 찾는 방법을 최소제곱법이라 하며, 실제 계산은 컴퓨터가 공식에 데이터를 넣어 처리한다.

R제곱은 평균을 기준으로 한 잔차 제곱합이 직선을 썼을 때 몇 퍼센트 줄어드는지를 나타낸다. 평균과 같은 예측이면 0, 완벽히 맞으면 1이며, 예제에서는 0.44, 즉 44% 감소로 중간 수준이었다. 평균과 비교하는 이유는 매장 수를 고려하지 않을 때 평균이 잔차 제곱합을 최소화하는 기준선이기 때문이다.

하지만 R제곱만으로는 부족하다. 무작위 점 두 개는 언제나 완벽히 맞아 R제곱이 1이 되기 때문이다. 그래서 p값을 함께 계산한다. 무작위 데이터로 같은 개수의 점을 수천 번 뽑아 R제곱 분포(히스토그램)를 만들고, 원래 값 이상이 나오는 비율을 구한다. 예제에서 p값은 0.53으로, 무작위로도 절반 넘게 같은 수준이 나온다는 뜻이라 예측을 신뢰하기 어려웠다. 결론적으로 매장을 지으면 매출이 6.5로 오른다고 예측되지만 신뢰도가 낮으므로, 더 많은 데이터를 모은 뒤 결정하라는 답이 나온다.

주요 인사이트

  • 잔차를 절댓값 대신 제곱하는 데에는 부호 상쇄 방지뿐 아니라 미분이 쉬워져 최적해를 계산하기 좋다는 실용적 이유가 있다.
  • R제곱을 평균선과 비교하는 이유는, 입력 변수를 쓰지 않을 때 평균이 잔차 제곱합을 최소화하는 가장 공정한 기준선이기 때문이다.
  • R제곱이 높아 보여도 데이터 점이 적으면 무작위로도 높은 값이 쉽게 나오므로, p값으로 신뢰도를 함께 확인해야 한다.
  • 좋은 예측 신뢰는 정확도(R제곱)와 우연 가능성(p값)을 모두 정량화해야 비로소 확보된다.

자주 묻는 질문

잔차를 왜 제곱하나요?

잔차를 그냥 더하면 양수와 음수가 상쇄돼 서로 다른 직선이 같은 합을 가질 수 있습니다. 제곱하면 모든 값이 양수가 되어 이 문제가 사라지고, 절댓값을 쓸 때보다 미분 계산이 쉬워져 최적의 선을 구하기 편합니다.

R제곱은 무엇을 의미하나요?

R제곱은 평균만으로 예측할 때의 잔차 제곱합이 직선을 썼을 때 몇 퍼센트 줄어드는지를 나타냅니다. 0이면 평균과 다를 바 없고, 1이면 완벽히 맞는 직선입니다. 영상 예제에서는 0.44로 44% 감소를 뜻했습니다.

R제곱 외에 p값이 왜 필요한가요?

무작위 점 두 개는 항상 직선에 완벽히 맞아 R제곱이 1이 되기 때문에, R제곱만으로는 우연한 결과를 걸러낼 수 없습니다. p값은 무작위 데이터가 같은 수준 이상의 R제곱을 낼 확률을 알려줘 예측을 얼마나 신뢰할 수 있는지 판단하게 해 줍니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#선형회귀#최소제곱법#R제곱#p값#머신러닝