AI VIDEO BRIEFING

역전파 직관 이해: 경사하강법·미니배치로 보는 신경망 학습 원리

신경망 학습의 핵심인 역전파를 수식 없이 직관으로 설명한다. 비용 함수, 경사하강법, 헤비안 이론 비유, 미니배치와 확률적 경사하강법까지.

출처: 3Blue1Brown 한국어2025년 6월 5일AI 보조 요약

수식 없이 이해하는 역전파(백프로파게이션): 신경망은 어떻게 학습하나 영상 대표 이미지

핵심 메시지

역전파(백프로파게이션)는 비용 함수를 가장 빠르게 줄이는 방향으로 가중치와 바이어스를 조정하기 위해, 복잡한 기울기 계산을 효율적으로 해내는 알고리즘이다.
기울기 벡터에서 각 성분의 크기는 비용 함수가 해당 가중치·바이어스에 얼마나 민감한지를 나타낸다 — 값이 32배 크면 그 가중치 변화의 효과도 32배 크다.
특정 출력 뉴런의 활성화를 높이려면 바이어스, 가중치, 이전 층의 활성화를 조절하며, 활발한 뉴런과 연결된 가중치를 키울수록 효과가 크다.
‘함께 발화하는 뉴런이 함께 연결된다’는 신경과학의 헤비안 이론에 비유할 수 있다(다만 인공 신경망과 생물학적 뇌는 다르다).
모든 데이터의 변화량을 평균 내는 것이 이상적이지만 느리므로, 데이터를 미니배치로 나눠 근사하는 확률적 경사하강법(SGD)을 쓴다.

쉽게 이해하기

영상은 손글씨 숫자 인식(MNIST) 예제를 통해 역전파를 수식 없이 직관적으로 설명한다. 784개의 입력 뉴런, 16개씩 두 개의 은닉층, 10개의 출력 뉴런으로 구성된 네트워크가 어떤 숫자인지 맞히는 과정을 배경으로 삼는다.

학습의 목표는 비용 함수(코스트)를 줄이는 것이다. 네트워크 출력과 정답의 차이를 제곱해 합산한 값이 하나의 학습 예제에 대한 비용이고, 이를 수만 개 데이터에 대해 평균 낸 것이 전체 비용이다. 비용을 줄이려면 비용 함수의 음의 기울기(경사하강법) 방향으로 가중치와 바이어스를 조정해야 한다.

기울기 벡터의 각 숫자는 ‘민감도’를 뜻한다. 어떤 가중치의 값이 3.2이고 다른 하나가 0.1이라면, 앞의 가중치를 조금만 바꿔도 비용이 32배 더 크게 변한다. 즉 어떤 가중치가 더 중요한지를 숫자의 크기가 알려준다.

숫자 ‘2’ 이미지를 예로 들면, 2에 해당하는 출력 뉴런의 활성화는 높이고 나머지는 낮춰야 한다. 활성화를 높이는 방법은 바이어스 조정, 가중치 조정, 이전 층 활성화 변경 세 가지이며, 이전 층에서 가장 활발했던 뉴런과 연결된 가중치를 키울 때 효과가 가장 크다. 이는 ‘함께 발화하는 뉴런이 함께 연결된다’는 헤비안 이론과 닮았다.

단 하나의 예제만으로 조정하면 네트워크는 모든 이미지를 2로 분류해 버린다. 그래서 모든 훈련 데이터에 대해 원하는 조정을 기록하고 평균을 낸다. 이 평균이 비용 함수의 음의 기울기에 비례한다. 모든 데이터를 매번 쓰면 느리므로, 데이터를 무작위로 섞어 미니배치로 나눠 근사하는 확률적 경사하강법을 사용한다.

주요 인사이트

역전파는 단순히 값을 올리고 내리는 것이 아니라, 비용을 ‘가장 빠르게’ 줄이는 비율로 조정하도록 만드는 알고리즘이다.
기울기 성분의 크기 = 민감도. 큰 값과 곱해지는 가중치를 바꿀수록 비용 변화가 커지므로, 같은 노력으로 더 큰 효과를 노리는 것이 경사하강법의 핵심이다.
한 예제만으로 조정하면 편향된 학습이 되므로, 여러 데이터의 조정 방향을 평균 내야 일반화가 된다.
확률적 경사하강법은 ‘술 취한 사람이 언덕을 빠르게 내려오는 것’에 비유된다 — 정밀하지 않지만 빠르게 최소값으로 수렴한다.
역전파가 잘 작동하려면 충분하고 깨끗하게 레이블링된 데이터가 중요하며, 최근에는 양보다 잘 정제된 데이터가 더 중요하다는 연구도 많다.

자주 묻는 질문

역전파(백프로파게이션)는 무엇을 하는 알고리즘인가요?

비용 함수를 가장 빠르게 줄일 수 있는 방향과 비율로 가중치와 바이어스를 조정하기 위해, 복잡한 기울기 계산을 효율적으로 수행하는 알고리즘입니다.

기울기 벡터에서 숫자의 크기는 무엇을 의미하나요?

비용 함수가 해당 가중치나 바이어스에 얼마나 민감한지를 나타냅니다. 예를 들어 한 값이 3.2이고 다른 값이 0.1이면, 앞의 가중치를 바꿀 때 비용이 32배 더 크게 변합니다.

왜 한 개의 훈련 예제만으로 학습하면 안 되나요?

숫자 2 하나만으로 조정하면 네트워크가 모든 이미지를 2로 분류하게 됩니다. 그래서 모든 데이터에 대한 원하는 조정을 기록하고 평균을 내야 하며, 이 평균이 비용 함수의 음의 기울기에 비례합니다.

확률적 경사하강법(SGD)과 미니배치는 왜 쓰나요?

모든 데이터의 변화량을 매번 평균 내는 것은 이상적이지만 계산이 너무 느립니다. 그래서 데이터를 무작위로 섞어 작은 미니배치로 나눠 근사 기울기를 빠르게 계산하는데, 이를 확률적 경사하강법이라 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗