AI VIDEO BRIEFING

신경망 작동 원리 완전정복: 가중치, 편향, 활성화 함수, 역전파

신경망을 함수 근사기로 이해하는 단계별 설명. 가중치와 편향, ReLU·시그모이드 같은 활성화 함수, 비용 함수와 경사하강, 그리고 학습을 빠르게 하는 역전파의 개념을 정리했다.

출처: Digital Genius2024년 7월 9일AI 보조 요약

신경망은 어떻게 학습하는가: 가중치·활성화 함수·역전파 한눈에 영상 대표 이미지

핵심 메시지

신경망은 입력을 받아 출력을 내는 '함수 근사기'로, 입력층·은닉층·출력층의 뉴런과 이를 잇는 가중치로 구성된다.
가중치는 곱셈, 편향은 덧셈에 해당하며, 이것만으로는 선형 함수밖에 표현하지 못한다.
ReLU·계단·시그모이드 같은 활성화 함수를 넣어야 비선형 함수를 근사할 수 있고, 뉴런을 늘리면 더 복잡한 곡선을 만든다.
학습은 출력과 정답의 오차를 제곱해 평균 낸 '비용'을 줄이는 과정으로, 가중치·편향을 조금씩 조정하고 학습률로 보폭을 정한다.
가중치마다 비용 변화를 일일이 재는 방식은 느리기 때문에, 연쇄법칙을 이용해 출력에서 거꾸로 계산하는 역전파로 속도를 끌어올린다.

쉽게 이해하기

인공지능은 체스 엔진이나 길찾기처럼 정해진 규칙을 따르는 알고리즘까지 아우르는 넓은 개념이다. 그중 기계학습은 알고리즘이 스스로 규칙을 만들도록 하며, 그 핵심에 신경망이 있다. 신경망은 층으로 배열된 뉴런과 이를 잇는 가중치로 이뤄지고, 첫 층은 입력층, 마지막 층은 출력층, 그 사이는 은닉층이라 부른다.

영상은 신경망을 입력을 받아 처리해 출력을 내는 '함수 근사기'로 설명한다. 예컨대 f(x)=2x+3 같은 함수를 신경망이 근사할 수 있다. 여기서 가중치는 입력에 곱하는 배수이고, 편향은 곱셈 뒤에 더해지는 값이다. 가중치만으로는 원점을 지나는 직선밖에 못 만들지만 편향을 더하면 그래프를 위아래로 옮길 수 있다.

그러나 가중치와 편향만 쓰면 층을 아무리 쌓아도 결과는 여전히 선형 함수다. 선형 함수를 합쳐도 선형이기 때문이다. 이를 넘어서려면 활성화 함수가 필요하다. 가장 단순한 ReLU는 입력이 0 이하이면 0을, 0보다 크면 그대로 내보낸다. 활성화 함수 덕분에 특정 구간에서 뉴런을 '켜고 끄듯' 곡선을 조합해 어떤 함수든 근사할 수 있고, 그래서 '활성화' 함수라 불린다.

학습은 지도학습을 예로 든다. 정답이 붙은 데이터를 주고, 신경망 출력과 실제 값의 차이를 제곱해 평균 낸 값을 '비용'으로 삼는다. 목표는 이 비용을 낮추는 것이다. 각 가중치를 아주 조금 바꿔 비용이 오르는지 내리는지 보고 반대 방향으로 조정하며, 얼마나 바꿀지는 '학습률'로 정한다. 이 과정을 반복할수록 신경망은 함수를 더 잘 근사한다.

문제는 속도다. 가중치와 편향 하나하나에 대해 모든 데이터로 비용을 다시 계산하면, 수백만·수십억 개의 가중치를 가진 큰 신경망에서는 지나치게 오래 걸린다. 데이터를 작은 배치로 나누는 방법에 더해, 핵심 해법이 역전파다. 역전파는 연쇄법칙으로 출력 쪽에서 시작해 거꾸로 계산하며, 앞 계층에서 구한 값을 재활용해 한 번의 실행으로 모든 가중치·편향을 조정한다.

주요 인사이트

신경망을 '함수'로 바라보면 입력·출력·근사라는 관점이 잡히고, 챗GPT의 다음 단어 예측이나 이미지 분류가 모두 같은 틀로 설명된다.
가중치=곱셈, 편향=덧셈이라는 단순한 대응만으로는 직선밖에 못 그리며, 비선형성의 열쇠는 활성화 함수에 있다.
'활성화'라는 이름은 함수가 특정 구간에서 뉴런의 기울기를 켜고 끄며 곡선을 조합하는 역할에서 비롯됐다.
학습은 결국 비용을 낮추는 최적화 문제이며, 학습률은 한 번에 얼마나 크게 움직일지를 정하는 조절 손잡이다.
역전파의 힘은 중간 계산값을 뒤에서부터 재사용해, 가중치마다 비용을 따로 재는 느린 방식을 한 번의 통과로 대체하는 데 있다.

자주 묻는 질문

가중치와 편향은 각각 무엇을 하나?

가중치는 입력에 곱하는 배수이고, 편향은 곱셈 결과에 더해지는 값이다. 가중치만 바꾸면 그래프가 원점을 중심으로 회전하고, 편향을 더하면 그래프를 위아래로 옮길 수 있다. 둘을 합치면 임의의 선형 함수를 표현할 수 있다.

활성화 함수는 왜 필요한가?

가중치와 편향만으로는 층을 쌓아도 결과가 항상 선형 함수가 되기 때문이다. ReLU, 계단, 시그모이드 같은 활성화 함수를 넣으면 비선형 함수를 근사할 수 있고, 뉴런을 늘릴수록 더 복잡한 곡선을 만들어 사실상 어떤 함수든 근사할 수 있다.

역전파는 기존 방식과 무엇이 다른가?

가중치를 하나씩 조금 바꿔 비용 변화를 재는 방식은 매우 느리다. 역전파는 연쇄법칙을 이용해 출력에서 시작해 거꾸로 미분값을 계산하고, 앞 계층에서 구한 값을 재활용한다. 덕분에 데이터 한 점당 신경망을 한 번만 실행해 모든 가중치와 편향을 조정할 수 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗