AI VIDEO BRIEFING

신경망 개념 학습 원리 — 지각 공간·뉴런 분할·계층 구조로 쉽게 이해하기

신경망은 왜 마법이 아닌가. 입력을 지각 공간의 점으로 보고, 뉴런이 공간을 나누며, 계층이 접기처럼 공간을 재배열해 개념을 분리하는 원리를 그림처럼 설명한다.

출처: Art of the Problem2020년 7월 7일AI 보조 요약

신경망은 어떻게 '개념'을 학습하는가: 지각 공간에서 개념 공간까지 영상 대표 이미지

핵심 메시지

신경망의 입력은 여러 측정값의 목록(벡터)이며, 이는 '지각 공간'이라는 좌표 공간의 한 점으로 볼 수 있다.
뉴런 하나는 지각 공간을 활성/비활성 영역으로 가르는 직선(고차원에서는 초평면)이며, 여러 뉴런을 모으면 공간을 여러 영역으로 잘라 개념을 표현할 수 있다.
계층(깊이)의 힘은 '종이 접기'에 비유된다. 접은 상태에서 다시 접으면 같은 수의 뉴런으로 기하급수적으로 많은 영역을 만들 수 있다.
실제 신경망의 깊은 층일수록 모서리 → 질감 → 사물 순으로 점점 복잡한 패턴에 반응하며, 마지막에는 개념 공간에서 비슷한 입력끼리 뭉치도록 점들을 재배치한다.
직관(한 번의 순전파)과 달리, 대화나 게임처럼 순차적 추론이 필요한 문제는 작동 기억이 필요해 아직 연구의 최전선에 있다.

쉽게 이해하기

많은 사람은 신경망을 '왜 되는지 알 수 없는 마법'처럼 여긴다. 영상은 이 오해를 걷어내기 위해 신경망 내부를 들여다본다. 신경망은 이미지·소리·글자 같은 입력을 여러 측정값의 목록, 즉 벡터로 받아들인다. 예컨대 이미지라면 각 값이 한 픽셀의 밝기다. 이 값들이 입력층 뉴런을 자극하고, 특정 뉴런이 켜지면 다음 층으로 신호를 보내는 활동의 물결이 층을 타고 흐른다. 마지막 출력층 뉴런의 활성 정도가 '이것이 어떤 개념인지'에 대한 믿음의 정도를 나타낸다.

핵심 질문은 '지각을 어떻게 개념으로 연결하는가'이다. 가장 단순한 뉴런은 스위치와 같다. 입력값이 활성 임계값을 넘으면 출력이 켜진다. 입력이 하나면 지각 공간은 1차원 직선이고, 뉴런은 이 선을 활성/비활성 구간으로 나눈다. 입력이 둘이면 평면, 셋이면 3차원 공간이 되고, 그 이상은 초평면으로 공간을 가른다. 결국 뉴런은 '지각 공간을 선형으로 분할하는 칸막이'이며, 온도계가 특정 온도에서 에어컨을 켜듯 어떤 영역에 들어오면 개념을 감지한다.

하지만 현실은 직선 하나로 나뉘지 않는다. 겨울과 여름의 데이터가 뒤섞여 있으면 선 하나로는 못 가르지만, 선 두 개면 네 영역으로 나눌 수 있다. 이것이 여러 뉴런이 필요한 이유다. 실제 문제인 손글씨 숫자 인식에서는 28×28, 즉 784차원 입력을 다루는데, 같은 숫자라도 사람마다 다르게 써서 지각 공간에 점들이 어지럽게 흩어진다. 그래서 중간층이 하나뿐인 얕은 신경망은 이 공간을 깔끔히 나누기 어렵다.

해결책은 자연을 따라 층을 쌓는 것이다. 영상은 이를 종이 접기로 비유한다. 접을 때마다 펴지 않고 겹쳐 접으면, 세 번 접기로 여섯 번 접은 것과 같은 분할을 얻고, 접을수록 영역 수가 기하급수적으로 늘어난다. 그래서 깊은 층의 뉴런은 단순한 선형 칸막이가 아니라 여러 선형 분할이 겹쳐 만든 복잡한 패턴에 반응한다. 이미지넷으로 학습된 신경망의 뉴런을 조사하면, 첫 층은 모서리와 점, 다음 층은 질감, 더 깊은 층은 개·바퀴·집·나무 같은 사물 전체에 반응한다.

마지막으로 공간 관점으로 돌아오면, 각 층은 입력이라는 점을 새 위치로 옮기는 변환이다. 이 변환들의 임무는 서로 다른 점은 밀어내고 비슷한 점은 끌어당겨, 마지막 '개념 공간'에서 같은 숫자끼리 촘촘한 덩어리(다양체, manifold)를 이루게 하는 것이다. 처음엔 흩어져 있던 손글씨 숫자의 점들이 층을 거치며 점점 또렷한 군집으로 분리되고, 그제야 마지막 층이 쉽게 개념을 가른다. 신경망의 진짜 힘은 바로 이 계층적 처리에 있다.

주요 인사이트

'지각 공간의 점'과 '뉴런=칸막이'라는 두 은유만 잡으면, 분류란 결국 공간을 잘라 비슷한 점을 같은 영역에 모으는 일임이 분명해진다.
깊이의 가치는 '접기의 재귀성'에 있다. 층을 쌓으면 같은 수의 뉴런으로 지수적으로 많은 영역을 만들 수 있어, 얕은 망이 못 푸는 복잡한 분포도 다룰 수 있다.
학습된 신경망은 저수준(모서리)에서 고수준(사물)으로 이어지는 특징 위계를 자연스럽게 형성하며, 이는 사람 뇌가 입력을 층으로 처리하는 방식과 닮았다.
분류의 어려움은 지각 공간이 뒤엉켜 있기 때문이며, 신경망은 이를 직접 나누는 대신 개념 공간으로 '풀어헤친' 뒤 나눈다.
이 모든 설명은 한 번의 순전파로 이뤄지는 '직관'까지만 다룬다. 순차적 추론과 작동 기억이 필요한 문제는 별개의 과제로 남는다.

자주 묻는 질문

신경망에서 '지각 공간'이란 무엇인가요?

입력값의 개수만큼 차원을 가진 좌표 공간입니다. 입력 벡터 하나가 이 공간의 한 점이 되고, 뉴런은 이 공간을 활성/비활성 영역으로 나누는 칸막이 역할을 합니다.

왜 층을 깊게 쌓으면 유리한가요?

영상은 종이 접기에 비유합니다. 펴지 않고 겹쳐 접으면 같은 접기 횟수(뉴런 수)로 훨씬 많은 영역을 만들 수 있습니다. 세 번 접기가 여섯 번 접기와 같은 분할을 내고, 접을수록 영역이 기하급수적으로 늘어납니다.

학습된 신경망의 뉴런은 실제로 무엇에 반응하나요?

이미지넷으로 학습한 망을 조사하면 첫 층은 모서리·점, 다음 층은 질감, 더 깊은 층은 개·바퀴·집·나무 같은 사물 전체에 반응합니다. 깊어질수록 점점 복잡한 패턴을 감지합니다.

'개념 공간'과 다양체(manifold)는 무슨 뜻인가요?

층을 거치며 점들이 재배치되어 최종적으로 비슷한 입력끼리 뭉치는 공간이 개념 공간입니다. 예를 들어 숫자 6과 3은 서로 다른 연결 영역(다양체)에 놓이며, 이 군집과의 가까움으로 무엇인지 판단합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗