AI VIDEO BRIEFING

이상 탐지(Anomaly Detection)와 아이솔레이션 트리 — 서버 모니터링과 시계열 이상값 찾기

서버가 보내는 지표에서 비정상을 찾아 경보를 울리는 이상 탐지 시스템의 설계 원칙과, 사이드카로 지표를 모으고 아주 적은 분할만으로 이상값을 분리해 내는 아이솔레이션 트리 알고리즘의 작동 방식을 쉽게 정리했다.

이상 탐지와 아이솔레이션 트리: 서버의 건강을 지키는 머신러닝의 원리 영상 대표 이미지

핵심 메시지

  • 서버 상태 모니터링은 각 서비스가 지표를 한 엔진으로 보내고, 그 엔진이 이상을 감지해 엔지니어에게 경보를 보내는 구조다.
  • 이상 탐지에서는 거짓 음성(놓침)보다 거짓 양성(헛경보)을 더 너그럽게 허용한다. 헛경보 조사 비용이 진짜 경보를 놓치는 비용보다 훨씬 싸기 때문이다.
  • 지표를 표준화해 보내려면 마이크로서비스 옆에 붙는 사이드카(서비스 메시)를 활용한다.
  • 고정 임계값은 추세나 계절성을 무시해 오류가 많다. 그래프에 바짝 붙는 동적 필터로 급변을 잡고, 작년 같은 시기 데이터로 정상적 급증을 구분한다.
  • 아이솔레이션 트리는 결정 트리처럼 데이터를 특징으로 분할하되, 아주 적은 분할만으로 떨어져 나오는 점을 이상값으로 본다.

쉽게 이해하기

서버 여러 대의 건강 상태를 관리하려면, 각 서버가 중요한 지표를 스스로 좋다·나쁘다 판단하는 대신 한곳의 엔진으로 보내게 한다. 이 엔진의 역할은 지표를 보며 이상을 감지하고, 이상이 보이면 그 사실을 표시해 시스템 엔지니어에게 경보를 보내는 것이다.

서버 측 이상 탐지의 핵심 원칙 하나는 거짓 음성보다 거짓 양성을 훨씬 많이 허용한다는 것이다. 엔지니어가 헛경보 하나를 조사하는 비용은, 진짜 문제를 놓쳐 버리는 비용보다 훨씬 싸기 때문이다. 그래서 시스템은 놓침을 줄이는 쪽으로 설계한다.

프로필·세션·결제 서비스처럼 서비스마다 중요한 지표가 다르므로, 이들이 같은 방식으로 지표를 보내게 하려면 인프라를 바꾼다. 마이크로서비스 아키텍처에서 라우팅이나 메시지 전달 같은 공통 기능을 처리하는 사이드카를 두면, 각 팀이 따로 손대지 않아도 모든 애플리케이션의 지표를 모아 엔진으로 보낼 수 있다.

사람은 그래프만 봐도 이상한 지점을 쉽게 찾지만, 코드로 만들기는 어렵다. 가장 단순한 방법은 과거 데이터의 평균·분산으로 상·하한을 정해 그 밖을 이상으로 보는 것인데, 전체 추세를 반영하지 못한다. 그래프에 바짝 붙는 동적 저역·고역 통과 필터를 쓰면 급격한 변화를 이상으로 잡을 수 있지만, 이번엔 시간(계절성)을 놓친다. 예컨대 12월 25일의 급증은 작년 데이터와 비교하면 정상임을 알 수 있다.

시계열 이상값을 찾는 알고리즘은 많지만, 영상은 그중 아이솔레이션 트리를 소개한다. 이는 결정 트리처럼 특징을 기준으로 데이터를 잘라 나가는데, 어떤 점을 떼어 내는 데 필요한 분할 횟수가 유난히 적다면 그 점은 이상값이다. 보통과 동떨어진 조합을 가진 데이터는 몇 번의 분할만으로 홀로 분리되며, 이 원리로 데이터를 통과시켜 이상을 찾아낸다.

주요 인사이트

  • 이상 탐지 시스템의 설계는 '무엇을 더 두려워하는가'에서 출발한다. 서버 모니터링에서는 놓침이 더 치명적이므로 헛경보를 감수한다.
  • 단순 임계값에서 동적 필터, 다시 계절성 고려로 이어지는 흐름은 이상 탐지가 결국 '무엇을 정상으로 볼 것인가'를 정교화하는 과정임을 보여 준다.
  • 아이솔레이션 트리의 발상은 거꾸로다. 정상을 일일이 정의하는 대신, '쉽게 고립되는 점'이 곧 이상이라는 점을 이용한다.
  • 사이드카로 지표 수집을 표준화하면, 머신러닝 모델은 깨끗하고 일관된 데이터를 받아 이상 탐지 자체에 집중할 수 있다.

자주 묻는 질문

왜 거짓 양성(헛경보)을 더 너그럽게 허용하나요?

엔지니어가 헛경보 하나를 조사하는 비용이, 진짜 장애를 놓쳐 시스템이 망가지는 비용보다 훨씬 싸기 때문입니다. 그래서 서버 측 이상 탐지는 놓침을 줄이는 쪽으로 설계합니다.

아이솔레이션 트리는 어떻게 이상값을 찾나요?

결정 트리처럼 데이터를 특징 기준으로 분할하되, 어떤 점을 홀로 떼어 내는 데 필요한 분할 횟수에 주목합니다. 아주 적은 분할만으로 분리되는 점은 다른 데이터와 동떨어져 있다는 뜻이므로 이상값으로 판단합니다.

단순한 고정 임계값만으로는 왜 부족한가요?

고정 임계값은 전체 추세나 계절성을 반영하지 못합니다. 몇 달간 서서히 값이 내려가거나 연말처럼 매년 반복되는 급증을, 추세와 과거 데이터를 보지 않으면 잘못된 이상으로 잡을 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#이상탐지#아이솔레이션트리#머신러닝#시계열#서버모니터링