AI VIDEO BRIEFING

딥 신경망 작동 원리 쉽게 이해하기 — 가중치·시그모이드·역전파까지

4픽셀 흑백 이미지 예시로 신경망이 패턴을 학습하는 과정을 풀어낸다. 입력 뉴런과 가중치, 시그모이드·ReLU 스쿼싱, 그리고 역전파와 경사하강 학습까지 핵심을 담았다.

출처: Brandon Rohrer2017년 3월 2일AI 보조 요약

딥 신경망은 어떻게 작동하는가: 4픽셀 카메라로 배우는 신경망의 원리 영상 대표 이미지

핵심 메시지

신경망은 단순한 밝기 규칙으로는 구분하기 어려운 패턴(예: 수평선과 수직선)을 학습으로 구분한다.
각 뉴런은 입력을 가중치로 곱해 더한 뒤 시그모이드나 ReLU 같은 함수로 값을 일정 범위로 눌러 안정적인 계산을 유지한다.
층을 쌓을수록 뉴런의 '수용 영역'이 점점 복잡해져 더 정교한 특징을 잡아낸다.
학습이란 정답과 출력의 차이(오차)를 줄이도록 가중치를 조금씩 조정하는 과정이다.
역전파와 연쇄법칙 덕분에 전체 신경망을 매번 다시 계산하지 않고도 각 가중치의 조정 방향을 효율적으로 구할 수 있다.

쉽게 이해하기

영상은 '4메가픽셀이 아니라 딱 4픽셀짜리 흑백 카메라'라는 극단적으로 단순한 예시로 시작한다. 이 카메라로 찍은 이미지가 전부 흰색인지, 수직선인지, 대각선인지, 수평선인지를 자동으로 판별하려 할 때, 어떤 픽셀이 밝고 어두운지에 대한 단순 규칙만으로는 두 개의 수평선조차 구분하기 어렵다는 점을 지적한다. 신경망이 필요한 이유가 여기서 드러난다.

먼저 네 개의 픽셀을 입력 뉴런으로 펼치고, 완전한 흰색은 +1, 완전한 검정은 -1, 중간 회색은 0으로 숫자를 매긴다. 이렇게 나열한 숫자 목록이 입력 벡터다. 각 연결에는 가중치가 붙어 입력값에 곱해지고, 이렇게 가중합한 값을 시그모이드(S자 모양) 함수에 통과시키면 결과가 항상 -1과 +1 사이로 눌려 계산이 안정적으로 유지된다. 가중합과 스쿼싱을 합친 이 단위가 바로 하나의 뉴런이다.

이런 뉴런을 여러 개 모아 한 층을 만들고, 한 층의 출력을 다음 층의 입력으로 삼아 층을 계속 쌓는다. 층이 깊어질수록 각 뉴런이 가장 강하게 반응하는 픽셀 패턴, 즉 수용 영역이 점점 복잡해진다. 영상은 시그모이드 대신 음수는 0으로 만들고 양수는 그대로 두는 ReLU(정류 선형 유닛)도 소개하며, 계산이 쉽고 안정성이 좋다는 장점을 설명한다.

출력층에서는 '솔리드·수직·대각·수평'이라는 네 가지 답 중 하나를 내놓는다. 하지만 임의로 만든 신경망의 답은 정답과 어긋나기 마련이고, 그 차이의 크기를 모두 더한 것이 신경망 전체의 오차다. 학습의 목표는 이 오차를 최대한 낮추도록 가중치를 조정하는 것이다.

문제는 가중치마다 오차를 다시 계산하면 계산량이 엄청나다는 점이다. 영상은 '가중치 하나를 바꿀 때 오차가 얼마나 변하는가'라는 기울기(DE/DW)를 미분으로 직접 구하고, 작은 단계의 미분값을 곱해 나가는 연쇄법칙으로 깊은 층의 가중치까지 훨씬 저렴하게 조정 방향을 계산하는 역전파를 소개한다. 무작위 가중치에서 시작해 정답을 아는 입력을 수천, 수백만 번 넣으며 조금씩 조정하면 가중치들이 오차가 낮은 지점으로 수렴한다.

주요 인사이트

신경망의 강점은 '규칙을 사람이 직접 짜지 않아도' 데이터로부터 패턴 구분을 학습한다는 데 있다. 두 수평선을 밝기 규칙으로 구분할 수 없다는 예시가 이 필요성을 잘 보여준다.
시그모이드와 ReLU 같은 활성화(스쿼싱) 함수는 값의 폭주를 막아 계산을 안정적이고 유계로 유지하는 장치다.
층이 깊어질수록 수용 영역이 복잡해진다는 설명은 '왜 딥(깊은) 신경망이 더 정교한 특징을 잡는가'를 직관적으로 이해하게 해준다.
역전파의 핵심은 마법이 아니라 미분과 연쇄법칙이며, 전체를 매번 다시 계산하는 대신 작은 단계의 기울기를 곱해 나가는 계산 효율화에 있다.
학습이 잘되면 가중치 대부분이 0에 가까운 희소한 표현이 나올 수 있지만, 항상 그렇게 깔끔하게 수렴하는 것은 아니며 '가능한 한 정답에 가까운' 최선의 표현을 찾는 것이 목표다.

자주 묻는 질문

입력 픽셀의 밝기는 어떤 숫자로 표현하나요?

완전한 흰색은 +1, 완전한 검정은 -1, 중간 회색은 0으로 매깁니다. 이렇게 만든 숫자 목록을 입력 벡터(또는 배열)라고 부릅니다.

시그모이드 함수는 왜 사용하나요?

가중합한 값을 항상 -1과 +1 사이로 눌러주기 때문입니다. 입력이 아무리 커져도 출력이 1을 넘지 않고, 아무리 작아져도 -1 아래로 내려가지 않아 신경망의 계산이 유계로 안정적으로 유지됩니다.

역전파(back propagation)가 왜 필요한가요?

가중치마다 오차를 다시 계산하면 계산량이 감당하기 어려울 만큼 커집니다. 역전파는 각 단계의 기울기를 미분으로 구하고 연쇄법칙으로 곱해 나가, 전체를 다시 계산하지 않고도 깊은 층의 가중치 조정 방향을 훨씬 저렴하게 구합니다.

신경망은 어떻게 학습하나요?

무작위 가중치로 시작해, 정답을 아는 입력을 넣고 오차를 계산한 뒤 역전파로 모든 가중치를 정답 쪽으로 조금씩 조정합니다. 이 과정을 수천~수백만 번 반복하면 가중치들이 오차가 낮은 지점으로 수렴합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗