AI VIDEO BRIEFING

머신러닝 용어 총정리: 지도학습·과적합·하이퍼파라미터 핵심 개념

데이터와 특성의 정의부터 지도·비지도·강화학습, 손실함수와 경사하강법, 과적합과 정규화, 특성 공학까지 실무에서 쓰이는 머신러닝 용어를 초급부터 차근차근 정리했습니다.

출처: AI For Beginners2025년 7월 10일AI 보조 요약

머신러닝 핵심 용어 18분 총정리: 데이터부터 과적합·앙상블까지 한눈에 영상 대표 이미지

핵심 메시지

머신러닝은 명시적으로 프로그래밍하지 않아도 데이터에서 패턴을 학습해 성능을 높이는 인공지능의 한 갈래다.
학습 방식은 정답이 있는 지도학습, 정답 없이 구조를 찾는 비지도학습, 보상·벌점으로 배우는 강화학습으로 나뉜다.
모델은 손실함수로 오차를 재고 경사하강법 등으로 파라미터를 조정하며, 학습률·배치 크기·에폭 같은 하이퍼파라미터는 미리 정한다.
과적합과 과소적합은 모델 복잡도와 직결되며, 편향-분산 트레이드오프의 균형점을 찾는 것이 일반화의 핵심이다.
전처리·특성 스케일링·인코딩·차원 축소·특성 공학 같은 데이터 준비 과정이 모델 성능을 좌우한다.

쉽게 이해하기

이 정리는 머신러닝에서 실제로 쓰이는 용어를 기초부터 차례로 짚는다. 먼저 데이터는 숫자·텍스트·이미지·오디오 등 기록·분석되는 정보이며, 표처럼 정해진 형식의 정형 데이터와 그렇지 못한 비정형 데이터로 나뉜다. 데이터를 설명하는 개별 정보 조각은 특성(feature), 각각의 데이터 기록은 관측치(observation)라 부른다. 인공지능은 사람의 지능이 필요한 일을 컴퓨터가 수행하게 하는 넓은 개념이고, 머신러닝은 그중 데이터로부터 학습하는 방식, 딥러닝은 심층 신경망을 쓰는 머신러닝의 하위 분야다.

학습 방식은 크게 셋이다. 지도학습은 입력과 정답을 함께 주고 패턴을 배우게 하며, 범주를 맞히는 분류와 연속값을 예측하는 회귀로 나뉜다. 비지도학습은 정답 없이 데이터의 구조를 찾는 방식으로, 비슷한 데이터를 묶는 군집화가 대표적이다. 강화학습은 환경과 상호작용하며 행동에 따른 보상·벌점으로 배우는데, 시행착오로 걷는 법을 익히는 로봇이 그 예다. 분류 문제에서 특정 클래스가 지나치게 적으면 클래스 불균형이 생겨 모델이 소수 클래스를 잘 못 맞힐 수 있다.

모델 학습의 핵심 메커니즘도 정리한다. 모델이 데이터에서 학습하는 내부 값은 파라미터이고, 예측과 실제값의 차이를 재는 것이 손실함수다. 최적화는 손실을 최소화하도록 파라미터를 조정하는 과정으로, 경사하강법이 가장 널리 쓰인다. 반면 학습률·배치 크기·에폭처럼 학습 전에 사람이 정하는 값은 하이퍼파라미터이며, 여러 조합을 시도해 가장 좋은 것을 고르는 과정이 하이퍼파라미터 튜닝이다. 학습률이 너무 크면 최적점을 지나치고, 너무 작으면 학습이 더디거나 멈춘다.

좋은 모델의 기준은 새 데이터에서도 잘 작동하는 일반화다. 모델이 훈련 데이터의 사소한 특징까지 외워버리면 과적합이, 너무 단순해 패턴을 못 잡으면 과소적합이 일어난다. 이는 모델 복잡도와 연결되며, 복잡도를 높이면 편향은 줄지만 분산이 커지는 편향-분산 트레이드오프가 작용한다. 그래서 데이터를 훈련·검증·테스트로 나눠, 훈련으로 학습하고 검증으로 하이퍼파라미터를 고른 뒤 테스트로 최종 평가한다. 검증 오차가 더 나아지지 않으면 멈추는 조기 종료나 손실에 벌점을 더하는 정규화로 과적합을 막는다.

데이터 준비도 성능을 좌우한다. 범주형·텍스트 데이터를 숫자로 바꾸는 인코딩(원-핫·순서형·레이블), 이상치와 결측치 처리, 값의 범위를 맞추는 특성 스케일링이 필요하다. 특성이 지나치게 많으면 차원의 저주가 생기므로 차원 축소(특성 선택·추출)로 줄이고, 새 특성을 만들거나 다듬는 특성 공학으로 성능을 끌어올린다. 마지막으로 여러 모델을 결합해 더 강한 모델을 만드는 앙상블 학습은, 여럿이 함께 결정하면 더 나은 판단을 한다는 발상에서 출발한다.

주요 인사이트

지도·비지도·강화학습의 구분은 '정답(라벨)이 있는가, 구조만 찾는가, 보상으로 배우는가'라는 기준으로 명확히 나뉜다.
과적합·과소적합·편향-분산 트레이드오프는 모두 모델 복잡도라는 하나의 축으로 연결해 이해할 수 있다.
데이터 누수(타깃을 입력 특성에 포함하는 초보 실수 등)는 모델이 정답을 미리 보고 '부정행위'하게 만들어 평가를 왜곡한다.
특성 스케일링은 거리 기반 알고리즘에서 큰 값을 가진 특성이 학습을 지배하지 않도록 막는 중요한 전처리다.

자주 묻는 질문

지도학습과 비지도학습의 차이는 무엇인가요?

지도학습은 입력과 정답(라벨)을 함께 주고 패턴을 배우게 해 새 데이터를 예측합니다. 비지도학습은 정답 없이 데이터 안의 패턴이나 구조를 찾으며, 비슷한 항목을 묶는 군집화가 대표적입니다.

과적합(overfitting)은 왜 문제가 되나요?

모델이 훈련 데이터를 지나치게 외워 무관한 패턴까지 학습하면, 새로운 데이터에서는 제대로 작동하지 못합니다. 예를 들어 흰 배경의 사과 이미지로만 학습하면 다른 배경의 사과를 못 알아볼 수 있습니다.

하이퍼파라미터와 파라미터는 어떻게 다른가요?

파라미터는 모델이 데이터에서 스스로 학습하는 내부 값(예: 선형회귀의 기울기·절편)이고, 하이퍼파라미터는 학습 전에 사람이 정하는 설정값(예: 학습률, 트리 개수)으로 데이터에서 학습되지 않고 튜닝의 대상이 됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗