AI VIDEO BRIEFING

머신러닝 편향과 분산(Bias-Variance): 과적합과 과소적합을 가르는 핵심 개념

쥐의 몸무게로 키를 예측하는 직관적 예시에서 직선 회귀와 구불구불한 곡선을 비교하며, 편향과 분산이 각각 무엇인지, 왜 한쪽을 줄이면 다른 쪽이 늘어나는지, 그리고 과적합을 피하는 최적점은 어떻게 찾는지 쉽게 설명한다.

출처: StatQuest with Josh Starmer2018년 9월 17일AI 보조 요약

핵심 메시지

영상은 쥐의 몸무게로 키를 예측하는 문제를 든다. 실제 관계는 어느 무게까지는 키가 커지다가 그 이후로는 평평해지는 곡선 형태다. 데이터를 학습용과 테스트용으로 나눈 뒤 두 가지 머신러닝 방법으로 이 관계를 근사한다.

첫 번째는 직선을 맞추는 선형 회귀다. 직선은 휘어질 수 없어 곡선 형태의 실제 관계를 결코 담아내지 못한다. 이렇게 모델이 진짜 관계를 포착하지 못하는 정도를 편향이라 부르며, 직선은 편향이 크다.

두 번째는 매우 유연한 구불구불한 선이다. 이 선은 학습 데이터의 점들을 곡선을 따라 거의 완벽히 통과해(잔차 제곱합이 0) 편향이 매우 작다. 하지만 테스트 데이터에서는 오히려 직선이 더 잘 맞는다.

학습셋과 테스트셋에서 적합도가 크게 달라지는 정도가 바로 분산이다. 구불구불한 선은 데이터셋마다 결과가 크게 달라져 분산이 높고, 이것이 과적합이다. 반면 직선은 데이터셋이 달라져도 일관된 결과를 내어 분산이 낮다.

이상적인 알고리즘은 편향과 분산이 모두 낮아, 실제 관계를 잘 담으면서도 데이터셋이 바뀌어도 일관된 예측을 한다. 이를 위해 너무 단순하지도 복잡하지도 않은 최적점을 찾으며, 정규화·부스팅·배깅이 그 대표적 방법이다(랜덤 포레스트가 배깅의 한 예다).

편향은 직선 회귀처럼 모델이 데이터의 실제(곡선) 관계를 담아내지 못하는 정도이고, 분산은 학습에 쓰는 데이터셋이 바뀔 때 모델의 적합 결과가 얼마나 크게 달라지는지를 뜻한다.

구불구불한 선처럼 너무 유연한 모델이 학습 데이터에는 완벽히 맞지만 새로운 테스트 데이터에는 잘 맞지 않을 때 과적합이라 한다. 학습 데이터의 세세한 부분까지 외워버리기 때문이다.

너무 단순하지도 너무 복잡하지도 않은 모델 복잡도의 최적점을 찾으면 된다. 영상은 정규화(regularization), 부스팅(boosting), 배깅(bagging) 세 가지 방법을 소개한다.

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.