AI VIDEO BRIEFING

머신러닝 기초 총정리: 데이터 사이언스, 지도·비지도·강화학습, 과적합과 편향-분산

입문자를 위한 머신러닝·데이터 사이언스 기초 강의를 정리했다. 빅데이터의 4V, AI·ML·DL의 관계, 세 가지 학습 유형, 과적합과 편향-분산 트레이드오프까지 핵심 개념을 다룬다.

출처: AI Sciences2019년 6월 2일AI 보조 요약

머신러닝 기초 한 시간 완성: 데이터 사이언스부터 편향-분산 트레이드오프까지 영상 대표 이미지

핵심 메시지

데이터 사이언스는 컴퓨터과학·수학·통계를 결합한 다학제 분야이며, 머신러닝과 딥러닝은 그 하위 분야다.
데이터 사이언스가 지금 부상한 이유는 방대한 데이터, 강력해진 연산력, 발전한 알고리즘 세 가지다.
학습은 지도학습, 비지도학습, 강화학습 세 가지로 나뉘며 각각 X와 Y 변수의 유무·환경 보상으로 구분된다.
좋은 모델은 과소적합과 과대적합 사이의 균형이며, 이는 편향-분산 트레이드오프로 이해할 수 있다.

쉽게 이해하기

데이터 사이언스는 전통적 학문처럼 한마디로 정의하기 어려운 다학제 분야다. 컴퓨터과학·수학·통계를 결합하며, 의료 분석 앱을 만든다면 의학 전문가의 도움이 필요하듯 각 분야의 도메인 전문성을 요구한다. 데이터 과학자는 데이터를 탐색·시각화하고 중요한 통계를 계산한 뒤, 문제의 성격에 따라 패턴을 찾는 머신러닝 모델을 만든다.

흔히 혼동되는 개념으로 빅데이터는 규모(Volume)·속도(Velocity)·다양성(Variety)·정확성(Veracity)이라는 네 가지 V로 구분되는 방대한 데이터를 뜻하고, 데이터 분석은 통계 지표를 계산하고 변수 간 관계를 시각화해 정보를 추출하는 기술적 통계에 가깝다. 데이터 사이언스가 지금 주목받는 이유는 역사상 어느 때보다 많은 데이터, 과거 며칠 걸리던 작업을 몇 초에 끝내는 연산력, 그리고 더 발전한 패턴 인식·머신러닝 알고리즘 덕분이다.

인공지능(AI), 머신러닝(ML), 딥러닝(DL)은 포함 관계다. ML은 AI의 하위 분야이고 DL은 ML의 하위 분야다. 강의는 아기가 과일을 배우는 과정에 빗대 학습을 설명한다. 아기는 먼저 모양으로, 다음엔 색으로 사과와 오렌지를 구분하는데, 머신러닝에서 모양·색 같은 속성은 특성(feature), 과일 종류는 레이블(label), 입출력 한 쌍은 관측(observation)이라 부른다.

특성과 레이블의 구성에 따라 학습은 세 가지로 나뉜다. 지도학습은 입력과 출력이 모두 알려진 레이블 데이터로 훈련하며 분류와 회귀가 대표 예다. 비지도학습은 X 변수만으로 관측을 군집으로 묶는 클러스터링에 주로 쓰인다. 강화학습은 에이전트가 환경에서 행동하고 그 결과로 받는 보상을 통해 과거 경험으로부터 학습하며 로봇 내비게이션이나 게임에 활용된다.

주요 인사이트

모델은 훈련 데이터와 테스트 데이터로 나눠 학습·평가한다. 새로운 데이터로 일반화가 잘 되면 좋은 모델이다.
과대적합은 훈련 데이터에는 잘 맞지만 새 데이터에 일반화하지 못하는 상태이고, 과소적합은 모델이 너무 단순해 데이터의 복잡성을 담지 못하는 상태다.
과소적합은 데이터를 늘리거나 모델 복잡도를 높여 해결하고, 과대적합은 데이터 확보, 규제(regularization) 항 추가, 교차 검증으로 완화한다.
편향-분산은 트레이드오프 관계다. 편향을 줄이려 모델을 복잡하게 하면 분산이 커지고, 분산을 줄이면 편향이 커지므로 둘의 균형이 최적 모델의 핵심이다.
이상치는 제거·임계값 상한·평균 대체·변환으로 다루고, 결측치는 관측 삭제나 평균·중앙값·최빈값 대체, 회귀·KNN 예측 같은 대치 기법으로 처리한다.

자주 묻는 질문

AI, 머신러닝, 딥러닝은 어떤 관계인가?

포함 관계다. 머신러닝은 인공지능(AI)의 하위 분야이고, 딥러닝은 머신러닝의 하위 분야다. 딥러닝은 더 많은 뉴런과 층을 사용해 이미지 인식이나 자연어 처리 같은 작업을 수행한다.

지도학습, 비지도학습, 강화학습은 어떻게 구분되나?

지도학습은 입력 X와 출력 Y가 모두 있는 레이블 데이터로 훈련하며 분류·회귀가 예다. 비지도학습은 X 변수만 있고 관측을 군집으로 묶는다. 강화학습은 에이전트가 환경에서 행동하고 보상을 통해 학습한다.

과대적합은 어떻게 완화하나?

더 많은 데이터를 모으거나, 모델에 규제(regularization) 항을 추가하거나, 교차 검증을 수행하는 방법이 있다. 반대로 과소적합은 데이터 크기를 키우거나 모델 복잡도를 높여 해결한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗