AI VIDEO BRIEFING

활성화 함수 쉽게 이해하기: 시그모이드·ReLU·소프트맥스와 기울기 소실·죽은 뉴런 문제

활성화 함수가 신경망에 비선형성을 더하는 원리부터, 시그모이드의 기울기 소실, ReLU의 죽은 뉴런 문제와 Leaky ReLU 같은 해결책, 분류에 쓰는 출력층 소프트맥스까지 핵심 개념을 초보자도 이해하기 쉽게 정리했습니다.

출처: CodeEmporium2020년 3월 19일AI 보조 요약

신경망의 활성화 함수: 시그모이드·ReLU·소프트맥스는 무엇을 하나 영상 대표 이미지

핵심 메시지

활성화 함수가 없으면 신경망은 아무리 층을 쌓아도 결국 직선(선형) 분류기에 머문다.
시그모이드·tanh처럼 값을 좁은 범위로 짓누르는 함수는 깊은 망에서 기울기 소실 문제를 일으킨다.
ReLU는 양수 입력을 그대로 통과시켜 기울기 소실을 줄이지만, 음수를 완전히 막아 죽은 뉴런(dying ReLU) 문제가 생길 수 있다.
Leaky ReLU·ELU는 음수 영역에서도 약간의 신호를 흘려보내 죽은 뉴런 문제를 완화한다.
출력층은 문제에 맞춰 다르게 쓴다 — 분류에는 소프트맥스, 회귀에는 활성화 함수 없이 실수 값을 그대로 낸다.

쉽게 이해하기

신경망의 한 층은 입력에 가중치를 곱하고 편향을 더해 다음 층으로 넘기는 단순한 계산을 한다. 이 계산만 반복하면 망은 직선으로 나눌 수 있는 데이터만 분류할 수 있다. 데이터가 조금만 복잡해져도 이런 단순한 구조로는 패턴을 잡지 못한다.

해결책은 층과 층 사이에 비선형 함수를 끼워 넣는 것이다. 이 함수를 활성화 함수라고 부르며, 시그모이드·tanh·ReLU·Leaky ReLU·소프트맥스 등 여러 종류가 있다. 활성화 함수를 거치면 망은 곡선 형태의 결정 경계를 학습할 수 있어 복잡한 데이터도 분류해 낸다.

그러나 시그모이드나 tanh는 입력을 0~1, 또는 -1~1 같은 좁은 범위로 짓누른다. 이렇게 값을 압축하면 역전파 과정에서 기울기가 점점 작아지다가 결국 0에 수렴해 학습이 멈춘다. 이것이 기울기 소실 문제이며, 층이 깊을수록 심해진다.

ReLU는 양수를 변형 없이 통과시키고 음수만 0으로 만든다. 값을 짓누르지 않으므로 기울기 소실이 줄어들고 실제로 오늘날 거의 모든 신경망에서 기본으로 쓰인다. 다만 편향이 크게 음수로 치우치면 많은 뉴런이 항상 0을 출력하며 죽어버리는 dying ReLU 문제가 생길 수 있는데, 음수 영역에 약간의 기울기를 주는 Leaky ReLU나 ELU로 이를 막는다.

출력층의 선택은 풀려는 문제에 달려 있다. 분류 문제에서는 소프트맥스를 써서 각 클래스에 속할 확률을 출력하고, 뉴런 수는 클래스 수와 같다. 반대로 실수 값을 예측하는 회귀 문제에서는 활성화 함수를 따로 두지 않고 출력 뉴런이 내는 값을 그대로 사용한다.

주요 인사이트

활성화 함수를 빼면 여러 층의 수식을 펼쳐도 결국 입력의 선형식으로 정리돼, 깊은 망이 사실상 로지스틱 회귀 한 개와 같아진다.
기울기 소실의 근본 원인은 함수가 값을 좁은 구간으로 압축하는 성질이다 — 시그모이드와 tanh가 모두 이 문제를 겪는 이유다.
ReLU의 강점(음수 차단)이 곧 약점(죽은 뉴런)이 되므로, 함수 선택은 항상 장단점의 균형 문제다.
같은 망이라도 은닉층과 출력층에 요구되는 활성화 함수의 역할이 다르다 — 은닉층은 비선형성, 출력층은 결과의 형식(확률 또는 실수)을 책임진다.

자주 묻는 질문

활성화 함수가 꼭 필요한 이유는 무엇인가요?

활성화 함수가 없으면 여러 층을 쌓아도 전체 계산이 입력에 대한 선형식으로 정리됩니다. 그 결과 직선으로만 데이터를 나눌 수 있어, 사실상 로지스틱 회귀와 같은 단순한 모델이 됩니다. 비선형 활성화 함수를 넣어야 곡선 형태의 복잡한 경계를 학습할 수 있습니다.

기울기 소실 문제는 왜 생기나요?

시그모이드나 tanh는 입력을 0~1이나 -1~1처럼 좁은 범위로 압축합니다. 입력이 크거나 작을 때 기울기가 0에 가까워지고, 역전파로 층을 거슬러 올라갈수록 이 작은 값이 곱해져 점점 더 작아집니다. 결국 기울기가 0이 되면 뉴런이 학습을 멈춥니다.

죽은 ReLU(dying ReLU) 문제는 어떻게 해결하나요?

ReLU는 음수 입력을 완전히 0으로 막기 때문에, 편향이 크게 음수가 되면 많은 뉴런이 항상 0을 출력하며 학습하지 못합니다. 음수 영역에서도 약간의 신호를 흘려보내는 Leaky ReLU나 ELU를 쓰면 이런 죽은 뉴런 문제를 완화할 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗