AI VIDEO BRIEFING

신경망 쉽게 이해하기: 노드·가중치·활성화 함수로 곡선 맞추기

신경망은 복잡해 보이지만 본질은 데이터에 곡선을 맞추는 기계다. 약물 용량 예시로 노드와 연결, 가중치와 편향, 소프트플러스·ReLU 같은 활성화 함수가 어떻게 새로운 곡선을 만들어 데이터에 맞추는지 단계별로 보여준다.

출처: StatQuest with Josh Starmer2020년 8월 31일AI 보조 요약

신경망의 핵심 아이디어: 사실은 "멋진 곡선 맞추기 기계"다 영상 대표 이미지

핵심 메시지

직선으로는 세 용량 중 두 개밖에 맞히지 못하지만, 신경망은 데이터에 "구불구불한 곡선"을 맞춰 모두를 예측할 수 있다.
신경망은 노드와 그 사이의 연결로 이루어지며, 연결 위의 숫자(가중치·편향)는 데이터에 맞출 때 역전파로 추정된다.
노드 안의 곡선은 활성화 함수(소프트플러스·ReLU·시그모이드 등)로, 신경망이 곡선을 만드는 빌딩 블록이다.
동일한 활성화 함수도 가중치(곱하기)와 편향(더하기)에 따라 잘리고 뒤집히고 늘어나 전혀 새로운 모양이 되고, 이를 더하면 데이터에 맞는 곡선이 된다.
입력·출력 사이의 은닉층 노드를 늘리면 아무리 복잡한 데이터든 곡선을 맞출 수 있어, 신경망은 사실상 "멋진 곡선 맞추기 기계"다.

쉽게 이해하기

StatQuest의 조시 스타머는 신경망이 복잡해 보이지만 그렇지 않다고 말하며, 블랙박스 안을 들여다보는 시리즈의 1부로 신경망이 무엇을 어떻게 하는지 설명한다. 예시는 저·중·고 세 가지 용량으로 약을 시험한 데이터다. 저용량과 고용량은 효과가 없어 0, 중간 용량은 효과가 있어 1로 둔다. 직선을 아무리 회전시켜도 세 점 중 두 개밖에 맞히지 못하지만, 신경망은 저용량에서 0에 가깝고 중간에서 1에 가깝고 고용량에서 다시 0에 가까운 초록색 곡선을 데이터에 맞출 수 있다.

신경망은 노드와 노드 사이의 연결로 이루어진다. 각 연결 위의 숫자는 신경망을 데이터에 맞출 때 추정된 파라미터 값으로, 직선을 맞출 때의 기울기·절편과 비슷한 역할을 한다. 처음에는 알 수 없는 값에서 출발해 역전파라는 방법으로 추정되며, 그 과정은 2부에서 다룬다. 일부 노드 안에는 곡선이 들어 있는데, 이 동일한 곡선들이 파라미터 값에 따라 모양을 바꿔 더해지면서 초록 곡선을 만든다.

노드 안의 곡선이나 꺾인 선은 활성화 함수라고 부른다. 화장지 이름 같은 소프트플러스, 로봇 같은 이름의 ReLU(정류 선형 유닛), 그리고 시그모이드 등이 있다. 많은 튜토리얼이 시그모이드를 쓰지만 실제로는 ReLU나 소프트플러스가 더 흔하며, 이 영상은 소프트플러스를 사용한다. 신경망을 만들 때 가장 먼저 정하는 것 중 하나가 어떤 활성화 함수를 쓸지, 그리고 입력·출력 사이의 은닉층을 몇 개, 각 은닉층에 노드를 몇 개 둘지다.

예시 신경망은 입력 노드 하나, 출력 노드 하나, 그 사이 노드 두 개로 가장 단순한 축에 속한다. 용량 0을 입력하면 위쪽 노드로 가는 연결이 값에 -34.4를 곱하고 2.14를 더해 활성화 함수의 x좌표 2.14를 만들고, 이를 소프트플러스에 넣어 y좌표 2.25를 얻는다. 용량을 0부터 1까지 조금씩 키우면 파란 곡선이 그려지고, 이 y값에 -1.3을 곱해(스케일링) 새로운 파란 곡선을 만든다. 아래쪽 노드로 가는 연결은 -2.52를 곱하고 1.29를 더해 주황 곡선을 만든 뒤 +2.28로 스케일링한다. 전체 용량 범위가 활성화 함수의 좁은 구간에만 대응한다는 점이 두 곡선이 서로 다른 모양을 갖는 이유다.

신경망은 파란 곡선과 주황 곡선의 y좌표를 더해 초록 곡선을 만들고, 마지막으로 0.58을 빼서 데이터에 맞는 초록 곡선을 완성한다. 이제 누군가 용량 0.5를 말하면 초록 곡선의 y좌표가 1.03이고 1보다 0에 가까운지 1에 가까운지로 효과를 판단한다. 곱하는 파라미터는 가중치, 더하는 파라미터는 편향이라 부른다. 1940~50년대에 노드를 뉴런, 연결을 시냅스에 빗대 "신경망"이라 불렀지만, 스타머는 하는 일을 보면 "멋진 곡선 맞추기 기계"라 불러야 한다고 말한다. 단 두 노드로도 이 곡선을 만들 수 있으니, 은닉층과 노드를 늘리면 이론상 거의 모든 데이터에 곡선을 맞출 수 있다.

주요 인사이트

신경망의 출발점은 "직선의 한계"다. 직선은 세 점 중 둘만 맞히지만 곡선은 셋 다 맞히므로, 신경망은 본질적으로 곡선을 맞추는 도구다.
연결 위의 가중치·편향은 새로 발명된 개념이 아니라, 직선을 맞출 때의 기울기·절편과 같은 역할을 하는 추정 대상이다.
동일한 활성화 함수도 가중치로 늘이고 편향으로 옮겨 전혀 새로운 모양으로 바꾼 뒤 더하기 때문에, 적은 부품으로 복잡한 곡선을 만들 수 있다.
"신경망"이라는 이름은 1940~50년대 뉴런·시냅스 비유에서 왔을 뿐, 실제로 하는 일은 데이터에 곡선을 맞추는 것이다.
단 두 노드로도 곡선을 맞출 수 있으므로, 은닉층과 노드를 늘리면 이론상 어떤 복잡한 데이터에도 곡선을 맞출 수 있다는 점이 신경망의 힘이다.

자주 묻는 질문

왜 직선이 아니라 신경망이 필요한가요?

저·중·고 용량 예시에서 직선은 아무리 회전시켜도 세 점 중 두 개밖에 맞히지 못합니다. 신경망은 저용량에서 0, 중간에서 1, 고용량에서 0에 가까운 구불구불한 곡선을 맞출 수 있어 셋 다 예측할 수 있습니다.

활성화 함수란 무엇인가요?

노드 안의 곡선이나 꺾인 선을 활성화 함수라고 합니다. 소프트플러스, ReLU, 시그모이드 등이 있으며 신경망이 곡선을 만드는 빌딩 블록입니다. 영상은 소프트플러스를 사용합니다.

가중치(weight)와 편향(bias)은 무엇인가요?

연결에서 값에 곱하는 파라미터가 가중치, 더하는 파라미터가 편향입니다. 이 값들이 동일한 활성화 함수를 잘라내고 뒤집고 늘여 새로운 모양으로 바꾸며, 데이터에 맞출 때 역전파로 추정됩니다.

더 복잡한 데이터도 신경망으로 예측할 수 있나요?

네. 단 두 개의 노드만으로도 곡선을 맞출 수 있으므로, 은닉층과 각 층의 노드를 늘리면 이론상 아무리 복잡한 데이터에도 곡선을 맞출 수 있다고 설명합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗