AI VIDEO BRIEFING

역전파 미적분 완전 이해 - 연쇄 법칙으로 보는 신경망 학습 원리

신경망이 어떻게 스스로 가중치를 조정해 학습하는지, 역전파의 핵심인 미적분 연쇄 법칙(체인룰)을 단순한 예제부터 단계별로 풀어 설명한다.

출처: 3Blue1Brown 한국어2025년 6월 20일AI 보조 요약

신경망 역전파의 진짜 계산법: 연쇄 법칙으로 풀어보는 미적분 영상 대표 이미지

핵심 메시지

역전파의 목표는 비용 함수가 각 가중치·바이어스에 얼마나 민감한지(편미분)를 구해, 비용을 가장 효율적으로 줄이는 방향을 찾는 것이다.
한 가중치의 작은 변화는 가중합 z, 활성화 a를 거쳐 비용 C로 전달되며, 이 연쇄적 영향을 곱으로 묶는 것이 미적분의 연쇄 법칙(체인룰)이다.
비용을 마지막 활성화로 미분하면 2(aL−y), 활성화를 z로 미분하면 시그모이드 같은 비선형 함수의 미분, z를 가중치로 미분하면 이전 층의 활성화 값이 된다.
바이어스에 대한 미분은 z를 b로 미분한 값이 1이라는 점만 다르고 나머지 과정은 동일하다.
층마다 뉴런이 여러 개가 되어도 원리는 같으며, 인덱스가 늘고 여러 경로의 영향을 합산한다는 점만 추가된다.

쉽게 이해하기

영상은 신경망 학습의 핵심인 역전파(백프로파게이션)를 직관이 아니라 수식, 특히 미적분의 연쇄 법칙 관점에서 다시 정리한다. 설명은 각 층에 뉴런이 하나뿐인 극단적으로 단순한 네트워크에서 출발한다. 이 네트워크는 세 개의 가중치와 세 개의 바이어스를 가지며, 우리가 알고 싶은 것은 '비용 함수가 이 변수들에 얼마나 민감한가'이다.

마지막 층을 L이라 할 때, 마지막 뉴런의 활성화는 aL, 정답은 y로 둔다. 하나의 훈련 데이터에 대한 비용은 (aL − y)의 제곱이다. 또한 마지막 뉴런 값은 가중치 wL에 이전 활성화 a(L−1)를 곱하고 바이어스 bL을 더한 가중합 zL을, 시그모이드나 ReLU 같은 비선형 함수에 통과시켜 얻는다.

비용이 가중치 wL에 얼마나 민감한지는 C를 wL로 미분한 값으로 표현된다. 핵심 아이디어는 wL의 작은 변화가 zL을 바꾸고, zL이 aL을 바꾸며, aL이 최종 비용을 바꾼다는 연쇄 구조다. 따라서 ∂z/∂w, ∂a/∂z, ∂C/∂a 세 비율을 곱하면 가중치 변화에 대한 비용의 민감도를 얻는다.

실제 미분을 계산하면, 비용의 aL에 대한 미분은 2(aL − y)로 출력이 정답에서 멀수록 영향이 커진다. aL의 zL에 대한 미분은 선택한 활성화 함수의 미분이고, zL의 wL에 대한 미분은 이전 뉴런의 활성화 a(L−1)이다. 즉 작은 가중치 변화가 미치는 영향은 앞 뉴런이 얼마나 활성화되어 있었는지에 좌우된다.

전체 비용 함수는 여러 훈련 데이터의 비용을 평균한 것이므로, 그 미분도 각 데이터에 대한 미분을 평균해 구한다. 또한 이렇게 얻은 편미분은 전체 그레이디언트 벡터의 한 성분일 뿐이다. 층마다 뉴런이 여러 개가 되면 인덱스가 늘고, 한 뉴런이 여러 경로로 비용에 영향을 주므로 그 기여들을 모두 더해야 한다는 점만 달라진다.

주요 인사이트

역전파는 신비로운 알고리즘이 아니라, 합성 함수의 미분을 연쇄 법칙으로 차례차례 곱해 나가는 과정일 뿐이다.
출력이 정답에서 크게 벗어날수록 2(aL−y) 항이 커져, 오차가 큰 뉴런일수록 가중치 갱신 신호가 강하게 전달된다.
'함께 발화하는 뉴런이 함께 연결된다'는 표현은, 가중치 변화의 영향이 이전 층 활성화 크기에 비례한다는 수식에서 자연스럽게 나온다.
바이어스 미분이 1이라는 점은, 바이어스가 출력에 직접·일정하게 기여함을 의미한다.
단층 뉴런 예제에서 얻은 직관은 여러 층·여러 뉴런으로 그대로 확장되며, 복잡함은 인덱스와 합산뿐이다.

자주 묻는 질문

역전파에서 연쇄 법칙(체인룰)이 왜 필요한가요?

가중치의 작은 변화가 가중합 z, 활성화 a를 거쳐 비용 C에 전달되는 합성 구조이기 때문입니다. 각 단계의 변화 비율(∂z/∂w, ∂a/∂z, ∂C/∂a)을 곱하면 가중치 변화에 대한 비용의 민감도를 얻을 수 있습니다.

비용 함수를 마지막 활성화로 미분하면 무엇이 되나요?

영상에서 비용이 (aL − y)의 제곱일 때, 이를 aL로 미분하면 2(aL − y)가 됩니다. 출력이 정답에서 멀수록 이 값이 커져 비용에 더 큰 영향을 줍니다.

가중치 미분과 바이어스 미분은 어떻게 다른가요?

과정은 같지만, z를 가중치로 미분하면 이전 층의 활성화 값이 되는 반면, z를 바이어스로 미분하면 1이 됩니다. 그래서 바이어스에 대한 민감도 계산은 그 항만 1로 바뀝니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗