AI VIDEO BRIEFING

신경망 학습 원리: 비용함수와 경사하강법으로 이해하는 딥러닝의 핵심

신경망의 '학습'은 사실 비용함수를 최소화하는 미적분 문제입니다. 손글씨 숫자 인식 예제로 경사하강법과 그래디언트의 의미, 그리고 은닉층의 의외의 진실까지 풀어 설명합니다.

출처: 3Blue1Brown2017년 10월 16일AI 보조 요약

신경망은 어떻게 '학습'하는가: 경사하강법으로 들여다본 학습의 정체 영상 대표 이미지

핵심 메시지

신경망의 '학습'은 약 1만 3천 개의 가중치와 편향을 조정해 비용함수를 최소화하는 과정, 즉 미적분 문제에 가깝다.
비용함수는 출력과 정답의 차이를 제곱해 더한 값으로, 잘 분류할수록 작아지고 엉뚱하게 분류할수록 커진다.
경사하강법은 기울기의 반대 방향으로 조금씩 이동하며 비용함수의 지역 최소값으로 수렴하는 방법이다.
그래디언트의 각 성분 크기는 '어떤 가중치를 바꾸는 것이 비용에 더 큰 영향을 주는지'라는 상대적 중요도를 알려준다.
성능은 96~98%로 훌륭하지만, 은닉층은 기대했던 에지·패턴 대신 거의 무작위에 가까운 것을 학습해 '숫자를 인식하지만 그릴 줄은 모른다'.

쉽게 이해하기

영상은 28x28 픽셀의 손글씨 숫자 인식을 예제로 삼는다. 784개의 입력 뉴런과 각 16개 뉴런으로 된 은닉층 두 개를 거쳐, 약 1만 3천 개의 가중치와 편향이 신경망의 동작을 결정한다. '학습'이란 수만 장의 라벨링된 이미지를 보여주며 이 파라미터들을 조정해 성능을 끌어올리는 일이다.

기계가 학습한다고 하면 거창하게 들리지만, 작동 원리를 보면 공상과학보다는 미적분 연습에 가깝다. 핵심은 비용함수다. 출력 뉴런의 활성값이 정답과 얼마나 다른지를 제곱해 더하고, 이를 수만 개 학습 예제에 대해 평균 낸 값이 '신경망이 얼마나 형편없는지'를 나타낸다. 처음에는 가중치를 무작위로 초기화하므로 성능이 끔찍하다.

그렇다면 어떻게 개선할까. 입력 하나·출력 하나짜리 단순한 함수를 떠올려 보면, 현재 위치의 기울기를 구해 기울기가 양수면 왼쪽, 음수면 오른쪽으로 조금씩 움직이며 최소값에 다가갈 수 있다. 언덕을 굴러 내려가는 공처럼 말이다. 다만 시작점에 따라 서로 다른 골짜기(지역 최소값)에 도달할 수 있고, 그것이 전체 최소값이라는 보장은 없다.

변수가 1만 3천 개로 늘어도 원리는 같다. 다변수 미적분에서 그래디언트는 함수를 가장 빠르게 증가시키는 방향을 가리키므로, 그 음수를 취하면 가장 빠르게 감소시키는 방향이 된다. 이 방향으로 조금씩 내려가는 과정을 반복하는 것이 경사하강법이다. 그래디언트의 각 성분은 부호로 가중치를 올릴지 내릴지를, 상대적 크기로 어떤 가중치가 더 중요한지를 알려준다.

흥미로운 반전도 있다. 은닉층이 에지 → 고리·선 → 숫자 순으로 패턴을 조립하길 기대했지만, 실제 학습된 가중치는 거의 무작위에 가까웠다. 무작위 노이즈 이미지를 넣어도 모델은 망설임 없이 엉뚱한 숫자를 확신한다. 한 연구는 라벨을 뒤섞어도 신경망이 데이터를 통째로 암기할 수 있음을 보였지만, 후속 연구는 구조화된 데이터에서 학습이 훨씬 빠르게 수렴한다는 점에서 단순 암기 이상의 무언가가 있음을 시사한다.

주요 인사이트

'학습'이라는 표현은 거창하지만, 본질은 매끄러운 비용함수의 지역 최소값을 향해 작은 걸음을 반복하는 최적화다.
스텝 크기를 기울기에 비례시키면 최소값에 가까워질수록 보폭이 줄어 지나치는(overshooting) 문제를 줄일 수 있다.
인공 뉴런이 생물학적 뉴런과 달리 연속적인 활성값을 갖는 이유는, 매끄러운 출력이라야 작은 걸음으로 최소값을 찾을 수 있기 때문이다.
그래디언트를 효율적으로 계산하는 알고리즘이 바로 역전파(backpropagation)이며, 이는 신경망 학습의 심장에 해당한다.
높은 정확도가 곧 '인간이 기대한 방식의 이해'를 의미하지는 않는다. 은닉층을 깊이 들여다볼수록 모델은 우리가 상상한 것만큼 똑똑하게 패턴을 잡고 있지 않다.

자주 묻는 질문

신경망이 '학습한다'는 것은 구체적으로 무엇을 의미하나요?

수만 장의 라벨링된 학습 데이터를 바탕으로 약 1만 3천 개의 가중치와 편향을 조정해 비용함수를 최소화하는 것을 뜻합니다. 즉 학습은 특정 함수의 최소값을 찾는 최적화 과정입니다.

경사하강법은 어떻게 작동하나요?

현재 위치에서 비용함수의 그래디언트(가장 빠르게 증가하는 방향)를 구하고, 그 반대 방향으로 작은 걸음을 옮기는 일을 반복합니다. 이렇게 하면 비용함수의 지역 최소값, 즉 골짜기로 수렴합니다.

높은 정확도를 내는데도 은닉층이 우리가 기대한 패턴을 학습하지 않는다는 게 무슨 뜻인가요?

영상의 신경망은 96~98%의 정확도를 내지만, 은닉층의 가중치는 에지나 고리 같은 명확한 패턴 대신 거의 무작위에 가깝습니다. 무작위 이미지에도 확신 있게 답하는 데서 보듯, 숫자를 인식하더라도 그것을 '그릴' 줄은 모릅니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗