AI VIDEO BRIEFING
머신러닝 알고리즘 총정리 — 지도·비지도 학습 핵심 한눈에 이해하기
10년 차 데이터 과학자가 핵심 머신러닝 알고리즘을 한 번에 정리한다. 지도 학습의 회귀·분류부터 KNN·SVM·나이브 베이즈·결정 트리·앙상블·신경망, 비지도 학습의 군집화와 차원 축소까지 직관적으로 짚는다.

핵심 메시지
쉽게 이해하기
10년 경력의 데이터 과학자 팀이 핵심 머신러닝 알고리즘을 17분에 훑으며, 어떤 문제에 어떤 알고리즘이 맞는지 직관을 잡아주는 영상이다. 그는 먼저 머신러닝을 지도 학습과 비지도 학습으로 나눈다. 지도 학습은 입력 변수(특성)와 예측 대상인 출력 변수가 있고, 정답(레이블)을 아는 훈련 데이터로 학습해 새 데이터의 답을 예측한다. 집값 예측이나 고양이·개 분류가 그 예다. 비지도 학습은 정답이 없는 상태에서 데이터의 숨은 구조를 찾는다.
지도 학습은 다시 회귀와 분류로 나뉜다. 회귀는 집값처럼 연속적인 수치를 예측하고, 분류는 스팸/정상처럼 이산적인 범주를 붙인다. 모든 알고리즘의 어머니 격인 선형회귀는 두 변수 사이의 선형 관계를 찾아, 데이터와 회귀선 사이 거리 제곱합을 최소화하는 직선을 맞춘다. 로지스틱 회귀는 그 변형으로, 직선 대신 시그모이드 함수를 맞춰 어떤 데이터가 특정 범주에 속할 '확률'을 알려주는 가장 기본적인 분류 알고리즘이다.
이어 여러 분류·회귀 알고리즘이 등장한다. KNN은 방정식을 맞추지 않는 비모수 방식으로, 새 데이터를 가장 가까운 K개 이웃의 평균이나 다수결로 예측한다. 여기서 K는 하이퍼파라미터로, 너무 작으면 과적합, 너무 크면 과소적합이 된다. SVM은 클래스를 가장 큰 여백으로 가르는 결정 경계(고차원에서는 초평면)를 찾으며, 커널 함수와 커널 트릭으로 복잡한 비선형 경계도 효율적으로 그린다. 나이브 베이즈는 베이즈 정리를 이용해 스팸 필터처럼 단어 출현 확률을 곱해 분류하는데, 단어들이 서로 독립이라는 '순진한' 가정 덕에 계산이 매우 빠르다.
결정 트리는 예/아니오 질문을 잇따라 던져 데이터를 나누며, 가능한 한 순수한 잎 노드를 만드는 것이 목표다. 단순하지만 여러 트리를 결합하면 강력해진다. 같은 데이터의 부분집합으로 여러 모델을 학습시키는 배깅의 대표가 랜덤 포레스트로, 트리마다 특성을 무작위로 제외해 과적합을 막고 트리 간 상관을 줄인다. 부스팅은 모델을 순차적으로 학습시켜 앞 모델의 오류를 뒤 모델이 바로잡는 방식으로, 에이다부스트·그래디언트 부스팅·XG부스트가 대표적이다. 정확도는 더 높지만 과적합에 취약하고 학습이 느리다.
'AI의 왕'으로 불리는 신경망은 SVM의 커널처럼, 사람이 특성을 일일이 설계하지 않아도 입력과 출력 사이에 은닉층을 두어 복잡한 특성을 스스로 만들어낸다. 손글씨 숫자 인식처럼 은닉층이 '가로선' 같은 특성을 암묵적으로 잡아내고, 층을 더 깊게 쌓으면 얼굴 같은 고차원 정보까지 표현하는 딥러닝이 된다. 마지막으로 비지도 학습에서는 K-평균 같은 군집화와, 정보를 최대한 보존하며 특성 수를 줄이는 PCA 같은 차원 축소를 소개한다.
주요 인사이트
- KNN과 K-평균은 모두 K가 하이퍼파라미터지만 성격이 다르다. KNN은 예측을 위한 이웃 수, K-평균은 찾으려는 군집 수를 뜻한다.
- 분류와 군집화는 혼동하기 쉽지만 본질이 다르다. 분류는 정답 레이블이 있는 지도 학습이고, 군집화는 레이블 없이 구조만 보고 묶는 비지도 학습이다.
- SVM은 결정 경계에 걸친 '서포트 벡터'만 알면 새 데이터를 분류할 수 있어 메모리 효율이 높고, 특성이 많은 고차원에서 특히 강력하다.
- 신경망의 은닉 특성은 사람이 그 의미를 대개 알지 못한다. 우리는 단지 그 특성들이 좋은 예측을 만든다는 사실만 알고 모델을 학습시킨다.
- PCA는 데이터의 분산이 가장 큰 방향을 주성분으로 찾아, 키와 길이처럼 강하게 상관된 특성을 하나로 합쳐 차원을 크게 줄이면서도 정보를 보존한다.
자주 묻는 질문
지도 학습과 비지도 학습의 차이는 무엇인가요?
지도 학습은 정답(레이블)이 있는 훈련 데이터로 학습해 새 데이터의 출력을 예측합니다. 집값 예측이나 고양이·개 분류가 예입니다. 비지도 학습은 정답이 없는 상태에서 데이터의 숨은 구조나 군집을 찾는 방식으로, 이메일을 미리 정하지 않은 범주로 묶는 것이 예입니다.
랜덤 포레스트와 부스팅(앙상블)은 어떻게 다른가요?
랜덤 포레스트는 여러 결정 트리를 병렬로 학습시켜 다수결로 예측하며, 트리마다 특성을 무작위로 제외해 과적합을 막습니다. 부스팅은 모델을 순차적으로 학습시켜 각 모델이 앞 모델의 오류를 바로잡습니다. 정확도는 더 높을 수 있으나 과적합에 취약하고 학습이 느립니다.
신경망이 기존 알고리즘과 구별되는 핵심은 무엇인가요?
사람이 특성을 일일이 설계하지 않아도, 입력과 출력 사이의 은닉층이 복잡한 특성을 암묵적·자동으로 만들어낸다는 점입니다. 은닉층을 깊게 쌓아 더 복잡한 특성을 표현하는 것이 딥러닝입니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗