AI VIDEO BRIEFING

역전파(backpropagation) 완전 해설: 손실함수·경사하강·연쇄법칙

GPT부터 AlphaFold까지 거의 모든 머신러닝의 학습을 떠받치는 역전파 알고리즘을, 곡선 맞추기 비유로 손실함수·미분·경사하강·연쇄법칙·계산 그래프까지 수식 부담 없이 직관적으로 설명한다.

출처: Artem Kirsanov2024년 4월 1일AI 보조 요약

머신러닝을 떠받치는 단 하나의 알고리즘, 역전파(backpropagation) 직관적으로 이해하기 영상 대표 이미지

핵심 메시지

역전파는 GPT, AlphaFold 등 구조가 제각각인 머신러닝 시스템 거의 전부의 학습을 떠받치는 공통 알고리즘이다.
모델 학습은 곧 '손실함수를 최소화하는 파라미터 찾기'이며, 손실은 데이터와 곡선 사이 거리의 제곱합으로 정의된다.
각 파라미터를 무작위로 흔들어 보는 대신, 미분(도함수)이 '어느 방향으로 얼마나 조정해야 손실이 줄지'를 알려준다.
여러 파라미터로 확장하면 기울기 벡터(gradient)가 가장 가파른 방향을 가리키고, 그 반대로 조금씩 내려가는 것이 경사하강법이다.
역전파는 연쇄법칙으로 복잡한 함수의 미분을 분해해, 계산 그래프를 거꾸로 훑으며 각 파라미터의 기울기를 효율적으로 구한다.

쉽게 이해하기

GPT, 미드저니, AlphaFold, 나아가 뇌 모형까지 — 목적도 구조도 데이터도 전혀 다른 머신러닝 시스템들이 공유하는 단 하나가 있다. 학습 절차의 밑바탕에서 돌아가는 알고리즘, 바로 역전파(backpropagation)다. 역전파는 1970년 세포 린나인마의 석사 논문에서 현대적 형태가 처음 정식화됐고, 1986년 럼멜하트·힌턴·윌리엄스의 논문에서 다층 퍼셉트론에 적용돼 은닉 뉴런 수준에서 의미 있는 표현을 학습할 수 있음이 처음 입증됐다.

'학습'이 무엇인지 밑바닥부터 쌓아보자. 평면에 흩어진 점들의 관계를 곡선으로 설명하고 싶다고 하자. 무한히 많은 함수 중에서 고르기 위해 가령 5차 다항식으로 근사한다고 가정하면, 상수항부터 5차항까지 각 항에 곱해질 계수 K0~K5를 정하는 문제가 된다. '가장 좋은 곡선'을 객관적으로 정하려면 척도가 필요하다. 흔히 쓰는 방법이 데이터 점과 곡선 사이 수직 거리의 제곱합이며, 이를 손실(loss)이라 부르고 목표는 이를 최소화하는 것이다.

손실을 줄이는 계수 조합은 어떻게 찾을까? 영상은 K0~K5에 해당하는 6개의 손잡이가 달린 가상의 '곡선 맞추기 기계'를 상상한다. 손잡이를 조금 돌려 손실이 줄면 옳은 방향, 늘면 되돌린다. 이렇게 하나씩 무작위로 흔들어 보는 방식은 작동은 하지만 비효율적이다. 다행히 대부분의 계산에는 '미분 가능성'이라는 성질이 있어, 훨씬 똑똑하게 조정 방향을 알 수 있다.

한 개의 손잡이만 본다면, 손실함수의 그래프에서 한 점의 기울기(도함수)가 핵심이다. 입력을 아주 조금 늘렸을 때 출력이 얼마나 변하는지의 비율을, 변화량을 무한히 작게 보낸 극한값이 도함수다. 도함수가 음수면 함수가 내려가는 중이니 손잡이를 오른쪽으로 돌리면 손실이 준다. 도함수의 반대 방향으로 조금씩 이동하길 반복하면 공이 골짜기로 굴러가듯 최소점에 도달한다.

손잡이가 여럿이면 각 파라미터에 대한 편미분이 생기고, 이들을 묶은 기울기 벡터(gradient)는 가장 가파르게 올라가는 방향을 가리킨다. 따라서 그 반대로 조금씩 내려가는 것이 경사하강법이다. 그렇다면 도함수 자체는 어떻게 구할까? 여기서 역전파가 등장한다. 덧셈·곱셈·거듭제곱·로그처럼 미분 공식을 아는 단순 연산들을 연쇄법칙으로 이어 붙이면, 아무리 복잡한 함수의 미분도 분해해 계산할 수 있다.

전체 손실 계산을 왼쪽에서 오른쪽으로 흘려보내는 것이 순전파(forward step), 이를 거꾸로 훑으며 각 노드의 기울기를 구하는 것이 역전파(backward step)다. 계산 그래프에서 덧셈 노드는 기울기를 그대로 전달하고, 곱셈 노드는 상대편 값을 곱해 전달하며, 한 노드가 여러 갈래에 쓰이면 갈래별 기울기를 더한다. 출력에서 시작해 데이터·파라미터 손잡이까지 거슬러 올라가면 원하는 기울기를 얻고, 학습률을 곱해 손잡이를 살짝 조정한다. 이 순전파→역전파→조정의 반복이 오늘날 가장 복잡한 모델의 학습에도 똑같이 쓰인다.

주요 인사이트

구조와 목적이 천차만별인 모델들이 단 하나의 알고리즘(역전파)으로 학습된다는 사실은, 머신러닝의 표면적 다양성 아래 깔린 통일된 수학적 토대를 드러낸다.
'학습'을 곡선 맞추기(손실 최소화)로 환원하면, 신경망 훈련이 신비로운 과정이 아니라 명확한 최적화 문제임이 분명해진다.
무작위 섭동(random perturbation) 대신 미분을 쓰는 것은 '미래를 들여다보는 창'을 얻는 것과 같아, 조정의 방향과 크기를 한 번에 알려주어 막대한 효율을 준다.
연쇄법칙을 '맞물린 톱니바퀴'로 본 비유는, 복잡한 합성함수의 미분이 결국 각 단계 도함수들의 곱이라는 핵심을 직관적으로 전달한다.
계산 그래프의 노드가 모두 미분 가능하기만 하면 같은 역전파를 적용할 수 있다는 점이, 신경망이 이미지 분류부터 텍스트 생성까지 확장될 수 있는 근거가 된다.

자주 묻는 질문

손실함수(loss function)란 무엇인가요?

모델이 만든 곡선이 데이터에 얼마나 잘 맞는지를 하나의 숫자로 나타낸 함수입니다. 보통 데이터 점과 곡선 사이 거리의 제곱합을 쓰며, 이 값을 최소화하는 파라미터를 찾는 것이 학습의 목표입니다.

경사하강법(gradient descent)은 어떻게 작동하나요?

각 파라미터에 대한 기울기(편미분)를 모은 기울기 벡터는 손실이 가장 가파르게 커지는 방향을 가리킵니다. 그 반대 방향으로 학습률만큼 조금씩 파라미터를 옮기길 반복하면, 공이 골짜기로 굴러가듯 손실의 최소점에 다가갑니다.

역전파에서 연쇄법칙은 왜 중요한가요?

복잡한 함수를 미분 공식을 아는 단순 연산들의 연결로 분해한 뒤, 연쇄법칙으로 각 단계의 도함수를 곱해 이어 붙이면 전체 미분을 구할 수 있기 때문입니다. 이것이 계산 그래프를 거꾸로 훑어 각 파라미터의 기울기를 얻는 역전파의 핵심입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗