AI VIDEO BRIEFING

신경망 구조 쉽게 이해하기 — 뉴런·가중치·편향으로 보는 딥러닝 입문

3Blue1Brown이 손글씨 숫자 인식을 예로 신경망의 구조를 설명한다. 뉴런, 층, 가중치, 편향, 시그모이드 함수가 어떻게 맞물려 작동하는지 수학으로 풀어낸다.

출처: 3Blue1Brown2017년 10월 5일AI 보조 요약

신경망이란 무엇인가: 손글씨 숫자를 알아보는 인공 신경망의 구조 뜯어보기 영상 대표 이미지

핵심 메시지

신경망의 뉴런은 0과 1 사이의 숫자(활성값) 하나를 담는 단순한 단위이며, 한 층의 활성값이 다음 층의 활성값을 결정한다.
손글씨 숫자 인식 예제는 28×28=784개의 입력 뉴런, 16개씩 두 개의 은닉층, 10개의 출력 뉴런으로 구성된다.
각 연결에는 가중치가, 각 뉴런에는 편향이 붙으며, 이 예제 신경망에는 약 1만 3천 개의 가중치와 편향이 존재한다.
"학습"이란 문제를 풀도록 이 수많은 가중치와 편향의 적절한 값을 컴퓨터가 찾아내는 과정이다.
신경망은 결국 784개의 숫자를 입력받아 10개의 숫자를 출력하는, 매우 복잡하지만 하나의 함수일 뿐이다.

쉽게 이해하기

사람의 뇌는 저해상도의 흐릿한 숫자 이미지도 손쉽게 "3"으로 알아본다. 하지만 28×28 픽셀 격자를 입력받아 어떤 숫자인지 0~9 사이 값으로 출력하는 프로그램을 직접 짜라고 하면, 이 일은 갑자기 까다로운 문제로 바뀐다. 3Blue1Brown은 이 손글씨 숫자 인식을 통해 신경망이 "실제로 무엇인지"를 유행어가 아닌 수학적 구조로 보여준다.

여기서 뉴런은 0과 1 사이의 숫자 하나를 담는 단위다. 이 숫자를 활성값(activation)이라 부른다. 입력층은 이미지의 각 픽셀 밝기(검정 0~흰색 1)에 대응하는 784개의 뉴런으로 시작하고, 마지막 층은 각 숫자에 대응하는 10개의 뉴런으로 끝난다. 그 사이에 은닉층이 있는데, 영상에서는 16개짜리 두 개를 임의로 선택해 보여준다.

핵심은 한 층의 활성값이 다음 층의 활성값을 만들어내는 방식이다. 이상적으로는 중간 층의 뉴런이 고리, 직선 같은 "부분 요소"를 잡아내고, 그 부분 요소들이 결합해 숫자를 이룬다는 기대를 걸 수 있다. 고리를 알아보는 일은 다시 작은 모서리(edge)를 알아보는 하위 문제로 쪼갤 수 있고, 이런 추상화의 층은 음성 인식 같은 다른 지능적 작업에도 들어맞는다.

한 뉴런이 특정 패턴을 잡아내게 하려면 첫 층의 각 연결에 가중치를 부여하고 활성값의 가중합을 계산한다. 관심 영역에 양의 가중치, 주변에 음의 가중치를 주면 그 영역의 모서리를 감지하게 된다. 가중합을 0~1로 눌러 담기 위해 시그모이드 함수를 쓰고, 뉴런이 일정 문턱을 넘어야 활성화되도록 편향(bias)이라는 숫자를 더한다.

뉴런 하나가 784개 연결의 가중치와 하나의 편향을 갖고, 모든 층을 합치면 약 1만 3천 개의 조절 가능한 값이 된다. 이를 행렬과 벡터로 정리하면 한 층에서 다음 층으로의 변환이 간결한 식이 되고, 코드도 단순하고 빨라진다. 결국 신경망은 784개를 입력받아 10개를 출력하는 하나의 거대한 함수이며, "학습"은 이 값들의 올바른 설정을 찾는 일이다.

주요 인사이트

뉴런을 "숫자를 담는 함수"로 이해하면, 신경망 전체도 입력 벡터를 출력 벡터로 바꾸는 하나의 함수로 보이며 블랙박스라는 막연함이 사라진다.
가중치는 "이 뉴런이 어떤 픽셀 패턴에 반응하는가"를, 편향은 "가중합이 얼마나 커야 활성화되는가"를 결정한다.
층 구조가 지능적으로 작동하리라 기대하는 이유는 모서리→패턴→숫자처럼 추상화 단계가 쌓이기 때문이며, 이는 이미지 인식을 넘어 음성 처리 등에도 적용된다.
머신러닝의 상당 부분은 선형대수(행렬·벡터 곱)의 이해로 귀결되며, 많은 라이브러리가 행렬 곱을 극도로 최적화해 두었다.
초기 신경망은 시그모이드를 썼지만, 깊은 신경망에서는 학습이 훨씬 쉬운 ReLU(0과 입력값 중 큰 값)가 사실상 표준이 되었다.

자주 묻는 질문

이 예제 신경망의 입력층과 출력층은 각각 몇 개의 뉴런으로 이루어지나요?

입력층은 28×28 픽셀에 대응하는 784개, 출력층은 0부터 9까지 각 숫자에 대응하는 10개의 뉴런으로 이루어집니다.

가중치와 편향은 각각 어떤 역할을 하나요?

가중치는 해당 뉴런이 어떤 픽셀 패턴에 반응할지를 정하고, 편향은 가중합이 얼마나 커야 뉴런이 의미 있게 활성화되기 시작할지를 정합니다.

영상에서 말하는 "학습"이란 무엇을 의미하나요?

신경망이 문제를 실제로 풀 수 있도록, 약 1만 3천 개에 이르는 가중치와 편향의 적절한 값을 컴퓨터가 찾아내는 과정을 뜻합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗