AI VIDEO BRIEFING

신경망·딥러닝 입문 정리: AI 역사부터 뉴런·가중치·ReLU 활성화 함수까지 MIT 강의로 이해하기

MIT 딥러닝 강의 1강 정리. 규칙 기반 AI에서 머신러닝, 딥러닝, 생성형 AI로 이어진 세 번의 도약과, 로지스틱 회귀에서 출발해 신경망·가중치·활성화 함수(ReLU)를 이해하는 원리를 담았다.

출처: MIT OpenCourseWare2026년 1월 7일AI 보조 요약

규칙에서 표현 학습까지: MIT 강의로 짚는 신경망과 딥러닝의 원리 영상 대표 이미지

핵심 메시지

AI는 규칙 기반 전통 방식 → 머신러닝 → 딥러닝 → 생성형 AI라는 세 번의 큰 도약을 거쳐왔다.
규칙 기반 AI가 실패한 핵심 이유는 새로운 상황에 일반화하지 못하고, '우리는 말할 수 있는 것보다 더 많이 안다'는 폴라니의 역설 때문이다.
머신러닝은 구조화된 데이터에 강하지만, 이미지·음성 같은 비구조 데이터는 사람이 직접 특성을 뽑아내는 '표현'이 병목이었다.
딥러닝의 힘은 원시 데이터에서 유용한 표현을 자동으로 학습한다는 단순하지만 강력한 아이디어에서 나온다.
신경망은 결국 입력을 여러 층에서 반복 변환한 뒤 마지막에 로지스틱 회귀를 붙인 구조이며, 은닉층·가중치·ReLU가 그 복잡성의 원천이다.

쉽게 이해하기

강의는 1956년 다트머스에서 시작된 AI의 역사로 문을 연다. 초기 연구자들은 그해 가을이면 AI가 대부분 풀릴 것이라 낙관했지만 현실은 달랐다. 화자는 그 후 약 67년이 세 번의 결정적 도약, 즉 전통적 규칙 기반 접근 → 머신러닝 → 딥러닝 → 생성형 AI로 이어졌다고 정리한다.

전통적 접근은 체스 그랜드마스터나 심장내과 전문가의 판단을 '이럴 때는 이렇게'라는 규칙으로 옮겨 담는 방식이었다. 상식적으로 그럴듯하지만 소수 분야에서만 성공했는데, 이유는 두 가지다. 무한히 많은 실제 상황에 일반화하지 못해 규칙이 취약했고, 사람은 자신이 어떻게 판단하는지조차 정확히 설명하지 못한다는 '폴라니의 역설'에 부딪혔기 때문이다.

그 대안이 머신러닝이다. 규칙을 일일이 알려주는 대신 입력-출력 예시를 잔뜩 주고 통계적 기법으로 둘 사이의 함수를 학습시키는 것이다. 화자는 선형 회귀를 해봤다면 이미 머신러닝을 한 것이라며, 사람들이 흔히 'AI'라 부르는 것의 상당수가 실은 머신러닝이라고 말한다. 다만 머신러닝은 스프레드시트의 행과 열로 정리되는 구조화된 데이터에서만 잘 작동한다.

이미지 같은 비구조 데이터에서는 픽셀의 밝기 숫자(0~255) 자체가 대상의 의미와 무관해, 사람이 부리 길이·날개폭 같은 특성을 손수 뽑아내는 '표현(representation)' 작업이 필요했다. 이 수작업이 거대한 병목이었고, 딥러닝은 바로 이 표현을 원시 데이터로부터 자동으로 학습함으로써 그 병목을 무너뜨렸다. 새로운 알고리즘, 대량의 데이터, GPU라는 병렬 연산 하드웨어가 결합해 오래된 신경망 아이디어에 다시 불을 붙였다.

후반부는 신경망의 실제 구조를 로지스틱 회귀에서 출발해 설명한다. 입력에 가중치(옛 회귀의 계수)를 곱해 더하고 편향(절편)을 얹은 뒤 시그모이드에 통과시키는 로지스틱 회귀에, 중간에 여러 층을 끼워 넣으면 신경망이 된다. 각 노드는 선형 함수와 비선형 활성화 함수의 결합이며, 은닉층을 쌓을수록 데이터에서 흥미로운 표현을 학습할 여지가 커진다. 은닉층에는 음수를 0으로 만드는 ReLU가 사실상 표준이고, 출력층은 확률이면 시그모이드, 여러 확률의 합이 1이면 소프트맥스를 쓴다. 가중치와 편향은 사람이 정하지 않고 손실 함수와 최적화로 신경망이 스스로 찾아낸다.

주요 인사이트

규칙 기반 AI의 실패는 성능 문제가 아니라 '일반화'와 '설명 불가능성'이라는 근본적 한계에서 비롯됐다 — 폴라니의 역설이 그 핵심이다.
딥러닝의 본질은 복잡한 마법이 아니라 '표현을 자동으로 학습한다'는 단순한 아이디어이며, 여기서 ChatGPT·AlphaFold 같은 성과가 나왔다.
신경망을 그래프(네트워크)로 그리는 순간, 입력과 출력 사이 중간에 무엇이든 끼워 넣을 수 있다는 발상이 자연스럽게 떠오른다.
신경망의 '설명 가능성' 문제는 데이터가 어떻게 흐르는지 몰라서가 아니라, 여러 특성이 뒤엉켜 특정 결과의 공을 어느 하나에 돌리기 어렵기 때문이다.
모든 센서 뒤에 딥러닝을 붙일 수 있다는 관점은 스마트 쌍안경 같은 새로운 제품 기회를 발견하는 사고의 틀이 된다.

자주 묻는 질문

규칙 기반 전통 AI는 왜 널리 성공하지 못했나요?

무한히 많은 실제 상황에 일반화하지 못해 규칙이 취약했고, 사람이 자신의 판단 과정을 정확히 설명하지 못한다는 '폴라니의 역설' 때문입니다. 설명할 수 없는 것을 컴퓨터에 규칙으로 옮길 수는 없습니다.

머신러닝과 딥러닝의 차이는 무엇인가요?

머신러닝은 스프레드시트처럼 구조화된 데이터에서 잘 작동하지만 비구조 데이터는 사람이 특성을 직접 뽑아내야 했습니다. 딥러닝은 그 '표현'을 원시 데이터에서 자동으로 학습해 이 수작업 병목을 없앤 머신러닝의 한 갈래입니다.

신경망에서 은닉층의 활성화 함수로는 무엇을 쓰나요?

강의는 은닉층에는 음수를 0으로 만드는 ReLU를 기본값으로 권합니다. 출력층은 출력 형태에 따라 결정되며, 0~1 확률이면 시그모이드, 여러 확률의 합이 1이어야 하면 소프트맥스를 사용합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗