AI VIDEO BRIEFING

그로킹(Grokking)이란? 신경망이 암기를 끝낸 뒤 뒤늦게 일반화하는 현상 정리

학습 손실이 0이 된 뒤에도 한참 더 훈련하면 테스트 정확도가 갑자기 치솟는 그로킹 현상을 정리했다. 암기에서 이해로의 상전이, 그리고 가중치 감쇠·회로 형성·SGD 편향이라는 세 가지 동인을 살펴본다.

그로킹(Grokking): 신경망이 한참 뒤에 갑자기 일반화하는 미스터리 영상 대표 이미지

핵심 메시지

  • 그로킹은 모델이 훈련 데이터를 거의 즉시 암기해 학습 손실이 0이 된 뒤에도, 수천~수만 에폭이 지나서야 테스트 정확도가 갑자기 치솟는 현상이다.
  • 암기와 이해는 학습의 서로 다른 단계이며, 진정한 일반화는 한참 뒤에 찾아온다.
  • 물이 0도에서 얼음으로 변하듯, 학습도 임계점에서 급격히 재구성되는 상전이로 이해할 수 있다.
  • 그로킹을 이끄는 세 동인은 가중치 감쇠, 회로 형성(암기 회로→알고리즘 회로), 그리고 SGD의 단순한 해를 선호하는 암묵적 편향이다.
  • 실전 교훈은 '생각보다 훨씬 오래 훈련하라'이며, 가중치 감쇠 없이는 그로킹이 일어나지 않는다.

쉽게 이해하기

그로킹은 딥러닝에서 가장 직관에 어긋나는 현상 중 하나다. 훈련을 시작하면 학습 손실이 수백 에폭 만에 거의 0으로 떨어진다. 전통적 기준으로는 학습이 끝난 셈이다. 그러나 테스트 정확도는 우연 수준(예: 10개 분류에서 10%)에 머문다. 모델이 문제의 구조를 전혀 배우지 못하고 그저 조회표처럼 암기만 한 상태다.

그런데 수천, 때로는 수만 에폭을 더 훈련하면 테스트 정확도가 갑자기 95~99%까지 치솟는다. 모듈러 산술 같은 과제의 실제 실험에서 관측된 이 현상의 핵심 질문은 '왜 이해가 암기보다 이렇게 늦게 오는가'이다. 아무 변화도 없어 보이는 그 긴 정체 구간 동안 내부에서는 무슨 일이 벌어지는 걸까.

영상은 이를 상전이로 설명한다. 물을 계속 식혀도 한동안 액체이다가 정확히 0도에서 분자 구조가 한꺼번에 재배열되어 얼음이 되듯, 학습도 임계점에서 급격히 재구성된다. 암기 단계의 모델은 개별 예시를 외우는 복잡한 회로를 쓰지만, 그로킹 순간 내부 표현이 완전히 뒤바뀌어 진짜 패턴을 담는 단순한 알고리즘 회로로 전환된다.

또 다른 직관은 '단순한 해로의 재구성'이다. 처음에는 모든 훈련 점을 정확히 통과하는 복잡하고 구불구불한 곡선(암기)을 쓰지만, 이는 새 데이터에 취약하다. 두 해 모두 훈련 손실은 0이지만, 정체 구간 동안 모델은 같은 데이터를 훨씬 단순한 함수로 표현할 수 있음을 서서히 발견하고, 그 순간 테스트 정확도가 뛴다.

이 전환을 이끄는 세 가지 동인이 있다. 첫째 가중치 감쇠는 손실이 0이 된 뒤 지배적 힘이 되어 모델을 단순한 해로 민다. 둘째 회로 형성에서 쉽게 찾아지는 암기 회로가 먼저 만들어지고, 여러 뉴런의 정교한 협응이 필요한 알고리즘 회로는 나중에 형성된다. 셋째 SGD는 본질적으로 더 단순한 해를 선호하지만 고차원 공간에서 그 해를 찾는 데 시간이 걸린다.

주요 인사이트

  • 검증 손실이 오르기 시작하면 멈추라는 통념과 달리, 단순한 알고리즘이 숨어 있다고 의심되는 과제에서는 훈련 정확도가 완벽해진 뒤에도 훨씬 오래 훈련해야 돌파가 올 수 있다.
  • 그로킹을 처음 발견한 실험에서 가중치 감쇠를 제거하자 그로킹이 전혀 일어나지 않았다. 단순함을 향한 압력은 선택이 아니라 필수다.
  • 학습 손실이 정체해도 내부는 계속 변한다. 테스트 지표를 수만 에폭에 걸쳐 끝까지 기록해야 뒤늦은 돌파를 놓치지 않는다.
  • 그로킹은 모듈러 산술·치환군 같은 단순한 규칙에서 가장 극적이며, 이미지 인식이나 언어 모델처럼 복잡한 과제에서는 더 미묘하게 나타난다.

자주 묻는 질문

그로킹은 정확히 어떤 현상인가?

모델이 훈련 데이터를 거의 즉시 암기해 학습 손실이 0이 되지만 테스트 정확도는 우연 수준에 머물다가, 수천~수만 에폭을 더 훈련한 뒤 갑자기 테스트 정확도가 거의 완벽 수준으로 치솟는 현상이다.

왜 이해가 암기보다 늦게 오는가?

쉽게 찾아지는 암기 회로가 먼저 형성되고, 진짜 패턴을 계산하는 알고리즘 회로는 여러 뉴런의 협응이 필요해 늦게 만들어진다. 가중치 감쇠가 손실이 0이 된 뒤 모델을 단순한 해로 서서히 밀어내며 전환을 이끈다.

그로킹에서 가중치 감쇠는 왜 중요한가?

가중치 감쇠가 단순함을 향한 압력을 만들기 때문이다. 실제로 가중치 감쇠를 제거하면 그로킹이 일어나지 않았다. 다만 너무 약하면 그로킹이 안 일어나고 너무 강하면 학습이 불안정해지므로 신중히 조절해야 한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식