AI VIDEO BRIEFING
머신러닝 드리프트란 — 개념·데이터·라벨·특징 드리프트 탐지와 대응
학습 데이터와 현실이 어긋나면서 모델 정확도가 떨어지는 드리프트를 개념·데이터·라벨·특징 유형으로 나누어 설명하고, 라벨 유무에 따른 탐지 방법과 근본 원인 분석·대응 절차를 정리했다.

핵심 메시지
쉽게 이해하기
머신러닝의 기본 가정은 학습에 쓴 데이터와 로직이 현실 세계를 어느 정도 모방한다는 것이다. 그러나 현실은 계속 변한다. 강연자는 팬데믹 때 사람들이 정장 바지 대신 요가 팬츠를 더 많이 사면서 예측이 부정확해진 사례를 든다. 이렇게 학습 시점의 정적 데이터가 현실과 벌어지면 모델은 정확도에서 멀어지는데, 이것이 바로 모델 드리프트다.
드리프트는 단순해 보여도 파급력이 크다. 어떤 고객은 주말 사이 발생한 드리프트로 50만 달러의 손실을 봤고, 또 다른 고객은 문제를 바로잡는 데 2주가 걸려 그동안 데이터 사이언티스트들이 다른 일을 못 했다. 잘못된 예측·추천, 사기 탐지 실패나 과탐지 모두 직접적인 손익에 영향을 준다. 드리프트는 급격히 나타나기도, 서서히 진행되기도 하며 조용히 실패하는 경우가 많다.
드리프트에는 유형이 있다. 개념 드리프트는 입력은 그대로인데 입력과 결과의 관계(사람들의 행동)가 바뀌는 것이다. 데이터 드리프트는 들어오거나 나가는 데이터 자체가 바뀌었지만 결정 경계는 여전히 유효한 경우다. 더 정밀하게는 출력(정답)이 바뀌는 라벨 드리프트와 입력이 바뀌는 특징 드리프트로 나눈다. 대출 심사 모델을 예로 들면, 거시경제 변화로 신용 기준이 달라지면 개념 드리프트, 부유한 지역 캠페인으로 우량 신청자가 급증하면 라벨 드리프트, 신청자들의 소득 분포가 바뀌면 특징 드리프트다.
탐지 방법은 라벨의 유무로 갈린다. 정답 라벨이 제때 있으면 성능 모니터링과 지도학습으로 정확도·오탐률·정밀도 같은 지표를 추적한다. 라벨이 없거나 지연되면 학습 분포와 유입 데이터 분포가 얼마나 벌어지는지 보는 데이터 드리프트 모니터링과 비지도학습을 쓴다. 분포 지표로는 금융권에서 널리 쓰는 인구안정성지수(PSI), KL 발산, 이를 대칭·유한하게 개선한 옌센-섀넌 발산, 분포 가정이 필요 없는 콜모고로프-스미르노프(KS) 검정 등이 있다.
문제를 발견했다면 근본 원인으로 들어간다. 강연자는 가장 먼저 데이터 무결성을 확인하라고 권한다. 두 필드 값이 뒤바뀌거나, 프런트엔드 업데이트로 널(null) 값이 허용되는 등 파이프라인·API 문제가 흔하기 때문이다. 그 다음 드리프트 분석으로 어떤 특징이 예측에 크게 영향을 주는지 특성 기여도를 살피고 영향받은 트래픽을 파고든다. 대응은 파이프라인 수정, 새 데이터 반영, 재학습, 특징 가중치 조정, 계절성에 맞춘 모델 관리 등으로 이뤄진다.
주요 인사이트
- 드리프트는 '모델이 틀렸다'가 아니라 '세상이 변했다'는 신호다. 라벨·특징 변화는 아직 정확도가 유지돼도 미래 성능 저하의 조기 경보가 된다.
- 라벨을 제때 확보할 수 있는지가 탐지 전략을 결정한다. 라벨이 있으면 성능 모니터링, 없으면 분포 기반 비지도 탐지로 방향이 갈린다.
- 비지도 탐지는 정확할 수 있지만 팀에 설명하기 어렵다는 단점이 있어, 이해하기 쉬운 통계적 방법이 실무 대응에는 유리할 때가 많다.
- 원인 분석은 화려한 모델링보다 데이터 무결성 점검이 먼저다. 스키마 불일치나 파이프라인 버그를 걸러내면 불필요한 분석을 줄일 수 있다.
자주 묻는 질문
모델 드리프트란 무엇인가요?
시간이 지나면서 머신러닝 모델이 정확도에서 멀어져 예측이 나빠지는 현상입니다. 학습에 쓴 정적 데이터가 계속 변하는 현실과 벌어지면서 발생합니다.
개념 드리프트와 특징 드리프트는 어떻게 다른가요?
개념 드리프트는 입력은 그대로인데 입력과 결과의 관계나 사람들의 행동이 바뀌는 것이고, 특징 드리프트는 입력 데이터 자체(예: 신청자의 소득 분포)가 바뀌는 것입니다.
라벨(정답 데이터)이 없을 때는 드리프트를 어떻게 탐지하나요?
학습 데이터 분포와 유입 데이터 분포가 얼마나 벌어지는지 비교하는 데이터 드리프트 모니터링과 비지도학습을 사용합니다. PSI, KL 발산, 옌센-섀넌 발산, KS 검정 같은 분포 지표가 쓰입니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗