AI VIDEO BRIEFING

신경망 구조 이해하기: 뉴런·활성화 함수·CNN·RNN·오토인코더 딥러닝 기초

뉴런이라는 기본 단위에서 시작해 활성화 함수, 층을 쌓아 만드는 심층 신경망, 그리고 CNN·RNN·오토인코더까지 신경망 구조의 큰 그림을 쉽게 정리했습니다.

출처: Steve Brunton2019년 6월 6일AI 보조 요약

핵심 메시지

신경망의 기본 단위는 입력에 수학 연산을 적용해 출력을 내는 '뉴런'이며, 시그모이드·하이퍼볼릭 탄젠트·ReLU 같은 활성화 함수가 그 동작을 결정한다.
뉴런을 직렬·병렬로 쌓아 인공 신경망을 만들고, 층을 아주 많이 쌓으면 오늘날 딥러닝의 바탕이 되는 심층 신경망이 된다.
이미지 인식에는 국소 패치를 훑는 합성곱 신경망(CNN)이, 시간에 따라 변하는 음성·신호에는 피드백으로 기억을 갖는 순환 신경망(RNN·LSTM)이 강하다.
오토인코더는 고차원 데이터를 저차원 잠재 공간으로 압축했다 복원하며, 데이터의 핵심 자유도를 뽑아내고 해석 가능성을 높인다.
텐서플로·파이토치·케라스 같은 오픈소스 덕분에 이런 구조를 설계하고 학습시키는 일이 점점 쉬워지고 있다.

쉽게 이해하기

신경망은 충분한 학습 데이터만 있으면 임의의 입력-출력 함수를 학습할 수 있는 표현력 높은 머신러닝 구조입니다. 그 출발점은 '뉴런'이라는 작은 기능 단위로, 입력 신호에 곱셈이나 덧셈 같은 단순한 연산부터 더 정교한 변환까지 적용해 출력을 만들어 냅니다.

뉴런의 성격을 결정하는 것이 활성화 함수입니다. 입력이 작으면 0, 크면 1에 가깝게 부드럽게 변하는 시그모이드나 하이퍼볼릭 탄젠트는 사람 뇌의 뉴런에서 영감을 받은 형태이고, 어느 지점까지는 0이다가 그 뒤로 선형으로 자라는 ReLU는 최근 현대 신경망에서 특히 널리 쓰입니다.

이 뉴런들을 옆으로 나란히 두거나(병렬) 이어 붙이면(직렬) 더 복잡한 함수를 표현하는 인공 신경망이 됩니다. 층을 계속 쌓아 나가면 각 층이 순차적으로 정보를 처리하는 심층 신경망이 되고, 이것이 바로 딥러닝의 기반입니다. 실제로 신경망 구조는 매년 수십 개의 새로운 형태가 제안될 만큼 종류가 '동물원'이라 부를 정도로 다양합니다.

대표적으로 합성곱 신경망(CNN)은 마스크를 이미지 위로 미끄러뜨리며 국소 영역에서 경계나 특징을 뽑아내, 고양이가 화면 어디에 있든 알아보는 '평행이동 불변성'을 다루는 데 강합니다. 순환 신경망(RNN)과 LSTM은 뉴런이 자기 자신이나 다른 층으로 되먹임되는 구조라 시스템 안에 기억이 생기고, 시간에 따라 변하는 음성이나 동적 신호 처리에 적합합니다.

발표자가 특히 즐겨 쓴다고 소개한 오토인코더는 고차원 데이터를 잠재 공간(z)으로 압축했다가 다시 원래 차원으로 복원하는 인코더-디코더 구조입니다. 얕은 선형 오토인코더는 100년 된 주성분분석(PCA)을 재현할 수 있고, 여기에 비선형 활성화 함수와 여러 층을 더한 심층 오토인코더는 데이터의 본질적 특징을 더 잘 뽑아내며 해석 가능성까지 제공합니다.

주요 인사이트

복잡해 보이는 딥러닝도 결국 단순한 뉴런과 활성화 함수라는 building block을 어떻게 쌓느냐의 문제라는 점을 이해하면 전체 그림이 훨씬 명확해진다.
문제의 성격(이미지·시계열·압축)에 따라 어울리는 구조가 다르며, 어떤 구조가 어떤 문제에 좋은지는 이론뿐 아니라 수많은 연구자의 시행착오와 분석을 통해 밝혀지고 있다.
오토인코더의 정보 병목(잠재 공간)은 단순한 압축을 넘어, 데이터의 몇 안 되는 핵심 변수를 분석해 그 의미를 해석할 수 있게 해 준다는 점에서 매력적이다.
오픈소스 프레임워크의 확산으로 신경망 설계·학습의 진입 장벽이 크게 낮아져, 강력하고 표현력 높은 모델을 누구나 시도해 볼 수 있는 시대가 되었다.

자주 묻는 질문

활성화 함수로 어떤 것들이 자주 쓰이나요?

입력이 작을 때 0, 클 때 1에 가깝게 부드럽게 변하는 시그모이드와 하이퍼볼릭 탄젠트가 오래 쓰였고, 어느 지점까지는 0이다가 그 뒤로 선형으로 커지는 ReLU가 현대 신경망에서 특히 널리 사용됩니다.

CNN과 RNN은 각각 어떤 문제에 적합한가요?

CNN은 국소 패치에서 경계·특징을 뽑아내며 이미지 인식처럼 평행이동 불변성이 있는 문제에, RNN·LSTM은 피드백으로 기억을 갖기 때문에 음성이나 시간에 따라 변하는 신호·동적 시스템에 적합합니다.

오토인코더는 무엇을 하는 구조인가요?

고차원 데이터를 저차원 잠재 공간으로 압축했다가 다시 원래 차원으로 복원하는 인코더-디코더 구조로, 데이터의 핵심 자유도를 뽑아내는 압축·특징 추출과 해석에 쓰입니다. 얕은 선형 형태는 주성분분석을 재현하기도 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗