AI VIDEO BRIEFING

경사 하강법이란 무엇인가? 신경망이 스스로 학습하는 딥러닝의 핵심 원리를 쉽게 이해하기

3Blue1Brown 한국어가 손글씨 숫자 인식 신경망을 예로 들어 경사 하강법을 설명한다. 비용 함수를 최소화하도록 가중치와 바이어스를 조금씩 조정하며 학습이 이뤄지는 딥러닝의 핵심 원리와 그 한계까지 풀어낸다.

출처: 3Blue1Brown 한국어2025년 5월 31일AI 보조 요약

신경망은 어떻게 학습할까: 경사 하강법으로 이해하는 딥러닝의 핵심 원리 영상 대표 이미지

핵심 메시지

기계 학습은 결국 '비용(코스트) 함수'를 최소화하는 최적화 문제이며, 신경망 학습도 예외가 아니다.
경사 하강법은 현재 지점의 기울기(그레디언트)를 계산해 함수값이 가장 빠르게 줄어드는 방향으로 조금씩 이동하는 방법이다.
가중치와 바이어스는 처음에 무작위로 설정되고, 반복 학습을 통해 점점 정답에 가까운 값으로 조정된다.
그레디언트 벡터의 각 성분 크기는 어떤 가중치가 결과에 더 큰 영향을 주는지(중요도)를 알려준다.
신경망이 숫자를 잘 맞혀도, 사람이 기대한 방식(선·고리 인식)으로 패턴을 이해하는 것은 아니다.

쉽게 이해하기

이 영상은 신경망 구조를 다룬 이전 편에 이어, 손글씨 숫자를 인식하는 신경망을 예로 든다. 각 숫자 이미지는 28×28 픽셀이고, 이 784개의 값이 입력층 뉴런의 활성화를 결정한다. 다음 층의 뉴런은 이전 층 활성화에 가중치를 곱해 더하고 바이어스를 더한 뒤 시그모이드나 렐루 같은 활성화 함수를 통과해 만들어지며, 이 작은 신경망은 약 1만 3천 개의 조정 가능한 가중치와 바이어스를 가진다.

모델을 학습시키려면 숫자 이미지와 그 정답 레이블로 이루어진 훈련 데이터가 필요하다. 처음에는 모든 가중치와 바이어스가 무작위여서 출력이 엉망이다. 이때 출력과 정답의 차이를 각각 제곱해 더한 값을 '비용(코스트)' 또는 '로스'라고 부르며, 값이 클수록 모델이 더 많이 틀리고 있다는 뜻이다. 학습의 목표는 한 샘플이 아니라 전체 평균 비용을 줄이는 것이다.

입력이 1만 3천 개나 되는 복잡한 함수에서는 미분값이 0인 최소점을 직접 구하기 어렵다. 대신 현재 위치에서 기울기를 구해, 함수값이 가장 빠르게 줄어드는 방향으로 조금씩 이동한다. 개념적으로는 언덕에서 공을 굴려 내려보내는 것과 같다. 기울기가 가파르면 큰 보폭으로, 완만해지면 작은 보폭으로 움직여 최소점 근처에서 안정된다.

다변수에서는 그레디언트가 함수값을 가장 빠르게 키우는 방향을 가리키므로, 그 음의 방향이 가장 빠르게 값을 낮추는 방향이 된다. 이렇게 음의 그레디언트 방향으로 가중치와 바이어스를 조정하는 것이 경사 하강법이다. 그레디언트 각 성분의 크기는 어떤 가중치가 결과에 더 크게 기여하는지, 즉 중요도를 알려준다. 이를 효율적으로 계산하는 방법인 역전파(백프로퍼게이션)는 다음 편에서 다룬다.

이렇게 학습한 작은 신경망은 처음 보는 이미지도 약 96% 맞히며, 구조를 키우면 99%대까지 올라간다. 하지만 무작위 잡음 이미지를 넣어도 특정 숫자라고 자신있게 답하고, 첫 층 가중치를 시각화해도 뚜렷한 선 패턴이 보이지 않는다. 즉 모델은 숫자를 잘 분류하지만 사람이 기대한 방식으로 형태를 이해하는 것은 아니며, 레이블을 뒤섞어도 데이터를 외워버릴 수 있다는 연구도 소개된다.

주요 인사이트

미분값이 0인 지점을 직접 푸는 것은 1만 3천 차원 함수에서 사실상 불가능하므로, 방향만 알아내 반복 이동하는 경사 하강법이 현실적인 해법이다.
스텝 사이즈를 기울기에 비례시키면 가파른 곳은 빠르게, 최소점 근처에서는 천천히 수렴해 최소값을 지나치지 않는다.
잘 정제된 데이터셋은 손실 함수의 지형을 완만하게 만들어 좋은 지역 최소값을 더 빨리 찾도록 돕는다.
레이블을 무작위로 섞어도 신경망이 결국 데이터를 외울 수 있다는 실험은, 모델이 '이해'가 아니라 '기억'에 의존할 수 있음을 보여준다.

자주 묻는 질문

비용(코스트) 함수란 무엇인가요?

신경망의 출력과 정답의 차이를 각각 제곱해 더한 값으로, 값이 클수록 모델이 더 많이 틀리고 있다는 뜻이다. 학습은 이 값을 낮추는 과정이다.

왜 미분값이 0인 지점을 직접 찾지 않나요?

입력이 1만 3천 개나 되는 복잡한 함수에서는 미분값이 0인 지점을 직접 구하기 어렵기 때문에, 대신 현재 위치에서 내려가는 방향을 찾아 조금씩 반복 이동한다.

정확도가 높으면 신경망이 숫자를 제대로 이해한 건가요?

아니다. 영상은 무작위 잡음 이미지에도 특정 숫자를 자신있게 답하는 예를 들어, 높은 정확도가 곧 사람이 기대한 방식의 이해를 뜻하지는 않는다고 설명한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗