AI VIDEO BRIEFING

이중 하강(double descent)이란? 큰 모델이 더 잘 일반화되는 이유와 편향-분산

교과서의 U자형 편향-분산 곡선은 모델이 크면 과적합된다고 가르친다. 그러나 대형 신경망은 강한 정규화 없이도 일반화가 잘 된다. 보간 임계점 너머에서 테스트 오차가 다시 내려가는 이중 하강을 정리했다.

출처: Welch Labs2025년 10월 19일AI 보조 요약

이중 하강: 모델이 클수록 더 잘 일반화되는 이유와 편향-분산 곡선의 반전 영상 대표 이미지

핵심 메시지

전통적 머신러닝 교과서는 모델이 커질수록 테스트 오차가 U자형으로 다시 올라간다고(과적합) 가르쳐 왔다.
그러나 대형 신경망은 강한 정규화 없이도 의외로 일반화가 잘 되며, 학습 데이터를 통째로 외울 능력이 있으면서도 정답 라벨에서는 견고한 패턴을 학습한다.
'이중 하강'은 모델을 보간 임계점(interpolation threshold) 너머로 더 키우면 테스트 오차가 한 번 치솟았다가 다시 내려가는 현상이다.
보간 임계점에서는 데이터를 정확히 맞추는 해가 사실상 하나뿐이라 노이즈에 취약하지만, 과매개변수 영역에서는 수많은 해 중 더 매끄러운(작은 노름) 해를 고를 수 있어 일반화가 좋아진다.
이중 하강은 모델 크기뿐 아니라 학습 시간에 따라서도 나타나, 테스트 오차가 오르기 시작해도 더 학습하면 다시 내려갈 수 있다.

쉽게 이해하기

오랫동안 머신러닝 교과서는 같은 그림을 보여줬다. 가로축에 모델 크기, 세로축에 오차를 두면 학습 오차는 모델이 커질수록 계속 내려가지만, 테스트 오차는 작은 모델에서 높고 중간 크기에서 최소가 되었다가 모델이 더 커지면 다시 치솟는 U자형이 된다. 다시 올라가는 부분이 바로 과적합이며, 다항식 곡선 적합 예시로 흔히 설명된다.

이 U자 곡선을 떠받치는 것이 편향-분산 트레이드오프 이론이고, 한 세대의 실무자들은 '데이터 복잡도에 맞춰 모델의 힘을 신중히 제한해 과적합을 피하라'고 배웠다. 2012년 AlexNet 팀도 과적합을 크게 걱정해 데이터 증강, 드롭아웃, 가중치 감쇠(릿지 회귀와 같은 원리)를 동원했고, 이런 정규화가 없으면 모델이 심하게 과적합한다고 보고했다.

그런데 딥러닝이 점점 더 커지는데도 공격적 정규화 없이 일반화가 잘 되는 모순이 나타났다. 2016년 구글 브레인은 라벨을 완전히 무작위로 섞어 학습시키는 실험으로 이를 정면으로 다뤘다. 놀랍게도 딥모델은 정규화가 있어도 CIFAR 5만 장과 ImageNet 130만 장을 거의 통째로 암기했고, 무작위 라벨에선 테스트 성능이 무작위 추측 수준이었다. 반면 정답 라벨로 돌아오면 같은 모델이 암기 대신 일반화했다.

2018년 벨킨(Belkin) 팀은 편향-분산 이론이 '틀린 게 아니라 전부가 아니다'라는 대안을 제시했다. 모델을 과적합 영역 너머로 계속 키우면 테스트 오차가 다시 내려오는 구간이 있다는 것이다. 이들은 이를 '이중 하강'이라 불렀고, 2019년 하버드·OpenAI 팀이 비전·언어의 트랜스포머 등 다양한 구조에서 이를 실증했다. 더구나 이중 하강은 모델 크기뿐 아니라 학습 시간에 따라서도 나타났다.

메커니즘은 다항식 예시로 설명된다. 데이터 점 다섯 개를 정확히 맞추는 가장 작은 모델(보간 임계점)에서는 해가 단 하나뿐이라 노이즈에 맞춰 심하게 휘어 일반화가 가장 나쁘다. 그러나 차수를 더 높이면 데이터를 완벽히 맞추는 곡선이 무수히 많아지고, 풀이 알고리즘이 그중 계수 노름이 가장 작은 매끄러운 해를 고른다. 통계학자 해스티(Hastie) 등은 이 현상이 편향-분산 이론을 부정하지 않으며, 임계점 이후엔 '차수'가 더 이상 올바른 복잡도 척도가 아니라고 본다.

주요 인사이트

무작위 라벨 실험은 딥모델이 정규화가 있어도 수십만~백만 장을 통째로 암기할 수 있음을 보였고, 같은 모델이 정답 라벨에서는 암기 대신 일반화한다는 점이 핵심 역설이다.
일반화가 가장 나쁜 지점은 보간 임계점, 즉 데이터를 처음으로 완벽히 맞추는 최소 모델이며, 그 너머로 갈수록 오히려 좋아질 수 있다.
과매개변수 모델은 데이터를 완벽히 맞추는 해가 무수히 많고, SGD가 그중 노름이 작은 매끄러운 해를 골라잡는 '귀납 편향' 덕분에 일반화가 된다.
이중 하강은 보편 법칙이 아니다 — 데이터 노이즈 수준과 모델의 귀납 편향에 따라 나타나지 않고 테스트 오차가 계속 악화될 수도 있다.
해스티 등은 보간 임계점 이후엔 다항식 차수가 복잡도를 제대로 재지 못하므로, U자형이 곧 이론의 전부는 아니라고 재해석한다.

자주 묻는 질문

이중 하강(double descent)이란 무엇인가요?

모델 크기나 학습 시간을 보간 임계점 너머로 늘리면 테스트 오차가 한 번 치솟았다가 다시 내려가는 현상입니다.

보간 임계점이 왜 가장 위험한가요?

그 지점에서는 데이터를 정확히 맞추는 해가 사실상 하나뿐이라 모델이 노이즈에 맞춰 휘어져 일반화가 가장 나빠지기 때문입니다.

학습을 더 오래 하면 과적합 아닌가요?

보통은 그렇게 보지만, 특정 모델·데이터에서는 테스트 오차가 오르다가도 계속 학습하면 다시 내려가는 학습 시간 이중 하강이 나타날 수 있습니다.

편향-분산 트레이드오프는 틀린 이론인가요?

완전히 틀린 것은 아니며, 보간 임계점 이후에는 복잡도를 어떻게 측정하느냐에 곡선 모양이 달라져 U자형이 전부가 아니라는 의미입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗