AI VIDEO BRIEFING
신경망과 딥러닝의 작동 원리: 퍼셉트론·은닉층·이미지넷·알렉스넷으로 배우는 AI 입문
퍼셉트론에서 은닉층까지, 신경망이 개와 고양이 이미지를 인식하는 원리를 크래시코스 AI 강의로 정리했다. 이미지넷과 알렉스넷의 등장, 가중치 계산과 딥러닝의 성능·설명가능성 한계까지 두루 살펴본다.

핵심 메시지
쉽게 이해하기
진행자 자브릴은 앞선 지도학습 편에서 뉴런 하나를 모방한 퍼셉트론을 소개했다며, 우리 뇌가 1000억 개의 뉴런과 그 사이 수조 개의 연결로 판단하듯 여러 퍼셉트론을 이어 붙이면 '인공 신경망'이 된다고 설명한다. 신경망은 이미지 인식 같은 작업에서 다른 기법보다 뛰어난데, 그 비결은 은닉층과 수학적 우아함에 있다.
컴퓨터는 0과 1을 하나씩 맞추는 문자적 비교에 능해, 같은 개의 다른 사진들을 같은 개로 인식하기가 오랫동안 어려웠다. 페이페이 리 등 연구진은 이를 풀기 위해 라벨링된 실제 사진 320만 장을 5,247개 범주로 정리한 공개 데이터셋 '이미지넷'을 크라우드소싱으로 구축하고, 2010년부터 연례 대회를 열었다.
2012년 대학원생 알렉스 크리제브스키가 만든 '알렉스넷'은 많은 은닉층과 빠른 연산 하드웨어를 앞세워 차순위 기법을 10% 이상 앞질렀고, 20장 중 3장만 틀렸다. 이후 신경망이 대회를 휩쓸며 연구가 폭발적으로 늘었다.
신경망은 입력층·출력층과 그 사이 은닉층으로 이루어진다. 입력 뉴런은 특징(feature)을 숫자로 받는데, 소리의 진폭, 단어의 빈도, 픽셀의 밝기(흑백) 또는 빨강·초록·파랑 세 값(컬러)처럼 거의 모든 것이 숫자로 변환된다. 은닉층 뉴런은 받은 값들에 가중치를 곱해 더하고 0~1로 압축하며, 특정 곡선·색·질감 같은 구성 요소가 있는지를 측정한다.
개 사진 예시에서 한 뉴런은 코 윗부분의 곡선을 찾도록 학습돼, 밝아야 할 픽셀엔 양의 가중치를, 어두워야 할 픽셀엔 음의 가중치를 준다. 이런 추정이 층을 거쳐 결합되며, 출력 뉴런은 '개일 확률 93%' 같은 결론을 낸다. 은닉층을 더 쌓는 딥러닝은 더 복잡한 문제를 풀지만, 연산량이 커지고(알렉스넷은 6000만 개 이상의 뉴런 사용) 왜 그런 답을 냈는지 설명하기 어려워진다. 신경망이 대출 심사·사기 탐지·암 검사·음성 인식 등 삶의 결정에 쓰이는 만큼, 그 판단 근거를 이해하는 일이 중요하다고 강조한다.
주요 인사이트
- 신경망의 힘은 은닉층에서 나온다. 각 층이 곡선·질감 같은 단순 요소부터 시작해 점점 복잡한 구성 요소를 잡아내며 이미지를 분류한다.
- 데이터셋과 하드웨어가 도약의 열쇠였다. 이미지넷이라는 대규모 라벨 데이터와 빠른 GPU 연산이 결합되면서 알렉스넷의 성공이 가능했다.
- 뉴런은 '코'나 '눈' 같은 개념을 이해하지 않는다. 단지 밝고 어두운 특정 패턴에 가중치를 곱해 신호를 낼 뿐이며, 이를 오해하지 않는 것이 중요하다.
- 깊이는 공짜가 아니다. 층을 늘릴수록 성능은 오르지만 연산 비용이 커지고, 판단 근거의 설명가능성은 떨어져 대출 거절 같은 결정에서 문제가 된다.
자주 묻는 질문
인공 신경망은 무엇으로 만들어지나요?
뉴런 하나를 모방한 퍼셉트론을 여러 개 연결해 만듭니다. 입력층·출력층과 그 사이의 은닉층으로 구성되며, 은닉층이 데이터의 구성 요소를 단계적으로 잡아내는 것이 성능의 비결입니다.
이미지넷과 알렉스넷은 왜 중요한가요?
이미지넷은 페이페이 리 등이 만든 320만 장 규모의 라벨 사진 데이터셋으로 이미지 인식 연구의 토대가 됐고, 2012년 알렉스넷이 많은 은닉층과 빠른 하드웨어로 대회를 제패하며 신경망 연구 폭발의 계기가 됐습니다.
딥러닝의 단점은 무엇인가요?
은닉층을 더 쌓으면 복잡한 문제를 풀 수 있지만, 연산량이 크게 늘고 판단 근거를 설명하기 어려워집니다. 대출 거절처럼 이유를 알아야 하는 결정에서는 이 낮은 설명가능성이 문제가 됩니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗