AI VIDEO BRIEFING

머신러닝 면접 필수 모델 5가지 정리: 선형·로지스틱 회귀, 결정 트리, KNN, 나이브 베이즈

머신러닝 면접에서 자주 묻는 다섯 가지 기본 모델인 선형 회귀, 로지스틱 회귀, 결정 트리, KNN, 나이브 베이즈를 면접 질문과 이론, scikit-learn 코드로 짚어 핵심 직관을 빠르게 잡아 준다.

머신러닝 면접 단골 5대 기본 모델: 이론과 코드로 정리 영상 대표 이미지

핵심 메시지

  • 면접에서는 화려한 모델보다 기본 모델의 원리를 정확히 이해하고 언제 쓰고 언제 실패하는지 설명하는 능력을 본다.
  • 선형 회귀는 연속값 예측의 기준선이며 선형 관계·이상치 가정에 주의해야 한다.
  • 로지스틱 회귀는 이름과 달리 분류 모델로, 선형 점수를 시그모이드로 확률로 바꾼다.
  • 결정 트리와 KNN은 분류·회귀 모두에 쓰이며 각각 과적합과 특성 스케일링이 핵심 함정이다.
  • scikit-learn으로 라이브러리 임포트→데이터→타깃/특성→분할→학습→예측의 6단계가 모든 모델에 동일하게 반복된다.

쉽게 이해하기

발표자는 면접 준비생들의 요청을 받아, 모델을 프로젝트에 쓰는 것과 면접에서 그 선택 이유와 이론을 설명하는 것은 다른 일이라는 점에서 출발한다. 면접관은 화려한 점수보다 기본기를 확인하려 하므로, 가장 기본이 되는 다섯 모델을 면접 질문, 이론, 코드 순서로 다룬다. 다루는 모델은 선형 회귀, 로지스틱 회귀, 결정 트리, KNN, 나이브 베이즈다.

선형 회귀는 연속값을 예측하는 회귀 모델로, 관계가 대체로 선형이고 해석 가능한 계수가 중요할 때 좋은 기준선이 된다. 직선을 여러 개 그어 평균제곱오차가 가장 작은 직선을 고르며, 예측값과 실제값의 차이인 잔차를 최소화한다. 강한 이상치가 선을 잘못된 방향으로 끌 수 있고, 학습 점수는 높은데 테스트 점수가 낮다면 먼저 데이터 누수(data leakage)를 의심해야 한다.

로지스틱 회귀는 이름에 회귀가 들어가지만 분류에 쓰인다. 먼저 선형 점수를 만든 뒤 시그모이드 함수로 0과 1 사이 확률로 바꾸고, 0.5 같은 임계값으로 클래스를 정한다. 이탈(churn) 모델이 정확도 95%인데 쓸모없다는 사례처럼, 불균형 데이터에서는 정확도 대신 재현율·정밀도 같은 비즈니스에 맞는 지표를 봐야 한다.

결정 트리는 if-else 질문으로 데이터를 더 순수한 그룹으로 나누며 분류와 회귀 모두에 쓰인다. 특성 스케일링이 필요 없고 비선형 패턴을 잡지만, 트리가 너무 깊어지면 과적합이 심해진다. 이때는 max_depth를 제한하고 잎당 최소 샘플 수를 늘리거나 교차 검증·랜덤 포레스트를 고려한다. KNN은 새 점과 가장 가까운 K개 이웃을 보고 분류는 다수결, 회귀는 평균으로 예측하는 거리 기반 모델이라 특성 스케일링이 필수다.

나이브 베이즈는 베이즈 정리로 클래스 확률을 비교하는 확률 모델로, 특성들이 서로 독립이라는 '순진한' 가정을 둔다. 단어 빈도에는 다항(multinomial), 연속값에는 가우시안을 쓴다. 독립 가정이 현실에선 거짓이어도 스팸 탐지처럼 고차원 텍스트에서 좋은 기준선이 된다. 모든 모델은 scikit-learn에서 임포트·데이터 읽기·타깃과 특성 선택·학습/테스트 분할·학습·예측의 동일한 6단계로 구현된다.

주요 인사이트

  • 좋은 면접 답변은 모델을 언제 쓰는지, 어떻게 동작하는지, 어떻게 실패하는지를 함께 설명한다. 점수만 좇는 답은 약하다.
  • 학습 점수는 높은데 테스트 점수가 나쁘면 가장 먼저 데이터 누수와 분할 실수를 점검해야 한다.
  • 분류 문제에서 정확도를 기본 지표로 삼지 말 것. 이탈 예측처럼 불균형 상황에서는 재현율 같은 지표가 비즈니스 영향을 더 잘 반영한다.
  • KNN은 거리로 이웃을 찾기 때문에 값이 큰 특성 하나가 거리 계산을 지배할 수 있어, 학습 전 표준화·정규화가 필요하다.
  • 나이브 베이즈의 독립 가정은 완벽히 참일 필요가 없다. 단순한 가정에도 텍스트 같은 고차원 데이터에서 강력한 기준선이 되는 점이 그 매력이다.

자주 묻는 질문

로지스틱 회귀는 회귀인데 왜 분류에 쓰나?

먼저 입력 특성으로 선형 점수를 계산한 뒤 그 점수를 시그모이드 함수에 통과시켜 0과 1 사이 확률로 바꾸기 때문이다. 예를 들어 0.5를 넘으면 A 클래스, 미만이면 B 클래스로 정해, 확률을 클래스 예측으로 변환한다.

결정 트리가 학습 데이터에선 거의 완벽한데 새 데이터에서 나쁜 이유는?

트리가 학습 데이터에 과적합돼 일반화되지 않는 매우 구체적인 규칙을 만들었기 때문이다. max_depth를 제한하고 잎당 최소 샘플 수를 늘리며, 교차 검증을 쓰고 랜덤 포레스트와 비교해 개선할 수 있다.

KNN에서 값이 큰 특성을 추가했더니 성능이 나빠졌다. 왜인가?

KNN은 거리로 이웃을 찾는데, 스케일이 큰 특성 하나가 거리 계산을 지배해 다른 유용한 특성을 무시하게 만들기 때문이다. 학습 전에 특성을 표준화하거나 정규화해야 한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#머신러닝#면접준비#scikit-learn#분류#회귀