AI VIDEO BRIEFING

역전파(Backpropagation)란? 신경망 학습의 핵심 알고리즘 직관으로 이해하기

3Blue1Brown이 수식 없이 직관만으로 역전파를 설명한다. 손글씨 숫자 인식 예시로 신경망이 가중치와 편향을 어떻게 조정하는지, 음의 기울기부터 미니배치와 확률적 경사 하강(SGD)까지의 흐름을 쉽게 풀어낸다.

출처: 3Blue1Brown2017년 11월 3일AI 보조 요약

신경망은 어떻게 배우는가: 역전파 알고리즘을 직관으로 이해하기 영상 대표 이미지

핵심 메시지

역전파는 신경망이 학습하는 핵심 알고리즘으로, 비용 함수를 가장 효율적으로 줄이는 가중치·편향의 변화 방향(음의 기울기)을 계산한다.
기울기의 각 성분 크기는 '비용이 그 가중치·편향에 얼마나 민감한가'를 알려 주며, 이는 어디를 조정해야 효과가 큰지를 가리킨다.
하나의 학습 예시는 출력 뉴런을 원하는 방향으로 밀기 위해 편향·가중치·이전 층 활성값이라는 세 경로로 조정을 원한다.
이 '원하는 조정'을 뒤쪽 층으로 되짚어 더해 나가는 과정이 바로 '역전파(뒤로 전파)'라는 이름의 유래다.
모든 예시를 매번 계산하면 느리므로, 데이터를 미니배치로 나눠 근사 계산하는 확률적 경사 하강(SGD)을 쓴다.

쉽게 이해하기

이 영상은 신경망 학습의 핵심 알고리즘인 역전파를, 수식에 앞서 '무엇을 하고 있는지'의 직관부터 설명한다. 예시는 손글씨 숫자 인식으로, 784개 입력 뉴런과 각 16개 뉴런의 은닉층 두 개, 10개 출력 뉴런으로 이뤄진 신경망을 사용한다.

학습이란 비용 함수를 최소화하는 가중치와 편향을 찾는 일이다. 하나의 예시에 대한 비용은 신경망의 출력과 원하는 출력의 차이를 제곱해 더한 값이며, 수만 개 예시에 대해 평균 낸 것이 전체 비용이다. 우리가 찾는 것은 이 비용을 가장 효율적으로 줄여 주는 '음의 기울기'다.

기울기 벡터는 1만 3천 차원처럼 상상하기 어려운 대상이지만, 각 성분의 크기는 '비용이 그 가중치에 얼마나 민감한가'로 읽으면 된다. 예컨대 어떤 성분이 3.2, 다른 성분이 0.1이라면 앞쪽 가중치를 조금 흔들 때 비용에 미치는 영향이 32배 크다는 뜻이다.

숫자 2 이미지 하나를 예로 들면, 정답 뉴런의 활성값은 올리고 나머지는 내려야 하며 그 조정 폭은 현재 값이 목표에서 얼마나 떨어졌는지에 비례한다. 특정 뉴런의 활성값을 올리는 길은 편향을 키우거나, 가중치를 조정하거나, 이전 층의 활성값을 바꾸는 세 가지다. 밝은(활성값이 큰) 뉴런과 이어진 가중치일수록 영향이 크다.

모든 출력 뉴런의 '바람'을 비례에 맞춰 더하면 바로 앞 층에 대한 조정 목록이 되고, 이를 뒤쪽 층으로 재귀적으로 되짚는 것이 역전파다. 한 예시의 요구만 따르면 모든 이미지를 2로 분류하려 하므로, 수만 개 예시의 요구를 평균 내야 한다. 다만 매번 전부 계산하면 느리기에 데이터를 미니배치로 나눠 근사 계산하는 확률적 경사 하강(SGD)을 쓰며, 이는 정확도를 조금 희생하는 대신 큰 계산 속도를 얻는다.

주요 인사이트

기울기의 각 성분을 '방향'이 아니라 '민감도(어디를 바꿔야 효과가 큰가)'로 읽으면 역전파의 의미가 훨씬 명료해진다.
'함께 발화하는 뉴런은 함께 연결된다'는 헤브 이론과의 느슨한 유사성처럼, 가장 활발한 뉴런 사이에서 연결 강화가 가장 크게 일어난다.
역전파의 실제 어려움은 개념보다 표기법과 인덱스 추적에 있으며, 각 조정의 효과를 분리해 보면 직관적으로 이해된다.
미니배치 기반 SGD는 '술 취한 사람이 빠른 걸음으로 언덕을 내려가는' 방식으로, 정확도를 조금 잃는 대신 학습 속도를 크게 높인다.
역전파를 포함한 대부분의 머신러닝은 다량의 라벨링된 학습 데이터가 필요하며, 그 확보 자체가 흔한 과제다.

자주 묻는 질문

역전파는 한마디로 무엇을 하는 알고리즘인가요?

하나의 학습 예시가 가중치와 편향을 어느 방향으로 얼마만큼 조정하길 원하는지를, 비용을 가장 빠르게 줄이는 상대적 비율로 계산하는 알고리즘입니다.

'역전파(뒤로 전파)'라는 이름은 어디서 왔나요?

출력 층에서 원하는 조정들을 비례에 맞춰 더해 바로 앞 층에 대한 조정 목록을 만들고, 이를 뒤쪽 층으로 재귀적으로 되짚어 나가기 때문에 '뒤로 전파'라고 부릅니다.

확률적 경사 하강(SGD)은 왜 쓰나요?

수만 개의 모든 예시를 매 단계 계산하면 매우 느리므로, 데이터를 미니배치로 나눠 각 배치로 근사 계산합니다. 정확한 기울기는 아니지만 좋은 근사치를 주면서 계산을 크게 빠르게 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗