AI VIDEO BRIEFING

ARIMA 모델 쉽게 이해하기: 자기회귀·차분·이동평균을 결합해 시계열을 예측하는 법

시계열 예측의 사실상 표준인 ARIMA 모델을 자기회귀(AR)·차분(I)·이동평균(MA)의 결합으로 풀어 설명한다. 정상성 요건, 차수 p·d·q 선택, 최대우도추정까지 핵심 개념을 한국 독자를 위해 정리했다.

출처: Egor Howell2023년 11월 6일AI 보조 요약

시계열 예측의 표준, ARIMA 모델 한눈에 이해하기 — 자기회귀·차분·이동평균의 결합 영상 대표 이미지

핵심 메시지

ARIMA는 자기회귀(AR)·통합/차분(I)·이동평균(MA) 세 가지를 결합한 모델로, 시계열 예측 분야에서 사실상 표준으로 꼽힌다.
AR은 과거 관측값들의 선형 결합으로 미래를 예측하고, MA는 과거 예측 오차를 이용해 미래를 보정한다.
ARIMA를 적용하려면 평균·분산이 시간에 따라 일정한 정상(stationary) 시계열이 필요하며, 차분과 박스-콕스/로그 변환으로 이를 맞춘다.
차수 p·d·q는 ADF 검정(차분 횟수 d), PACF(AR 차수 p), ACF(MA 차수 q)로 정하거나 AIC·BIC 기준의 격자 탐색으로 자동 선택한다.
파라미터는 최대우도추정(MLE)으로 추정하며, 정상 시계열이어야 분포 적합과 MLE가 유효하다.

쉽게 이해하기

데이터 과학자 이고르 하월의 시계열 강의 영상으로, 예측 분야에서 가장 중요하고 유용한 모델로 꼽히는 ARIMA를 다룬다. ARIMA는 자기회귀(AutoRegressive), 통합(Integrated), 이동평균(Moving Average)의 머리글자를 딴 이름으로, 세 가지 구성요소를 하나로 합친 모델이다.

AR 부분은 이전 시점의 관측값들(시차, lag)의 선형 결합으로 미래값을 예측하며, 어떤 시차를 몇 개(p) 포함할지와 그 계수를 찾는 것이 목표다. MA 부분은 과거에 발생한 예측 오차들을 이용해 미래 예측을 보정하며, 포함할 오차 시차의 수(q)를 정한다. I(통합) 부분은 적분이 아니라 '차분'을 뜻하며, 시계열을 정상 상태로 만들기 위한 것이다.

ARIMA의 핵심 요건은 정상성이다. 평균·분산 같은 분포의 물리적 성질이 시간에 따라 일정해야 분포를 적합하고 최대우도추정(MLE)으로 계수를 구할 수 있기 때문이다. 차분은 평균을, 박스-콕스나 로그 변환은 분산을 안정화한다. 차분이 충분한지는 증강 디키-풀러(ADF) 검정으로 확인하고, 정상이 될 때까지 차분한 횟수가 곧 통합 차수 d가 된다.

AR 차수 p와 MA 차수 q는 각각 부분자기상관함수(PACF)와 자기상관함수(ACF)에서 시차가 더 이상 유의하지 않아지는 지점으로 추정할 수 있다. 다만 발표자는 실무에서는 여러 p·q 조합을 모두 시도한 뒤 AIC나 BIC가 가장 좋은 조합을 고르는 격자 탐색 방식을 선호한다고 말한다. 시계열은 데이터가 많지 않아 이 탐색이 대부분의 컴퓨터에서 합리적인 시간 안에 끝난다.

마지막으로 항공 승객 수 데이터셋을 이용한 파이썬 실습을 보여준다. 추세와 계절성이 함께 커지는 비정상 데이터에 박스-콕스 변환으로 분산을 안정화하고, statsmodels의 ACF·PACF 플롯에서 약 12시차까지 유의함을 확인해 p와 q를 12로 두고 한 번 차분하여 모델을 적합한다. 예측 결과는 추세와 계절 성분을 잘 잡아내며, 발표자는 초기 모델을 세울 때 ARIMA를 적극 추천한다.

주요 인사이트

ARIMA의 'I(Integrated)'는 흔히 떠올리는 적분이 아니라 차분을 의미하며, 시계열을 정상 상태로 만드는 역할을 한다.
대부분의 파이썬 패키지는 차분(통합 차수)을 자동으로 처리하므로, 사용자는 박스-콕스·로그 변환으로 분산만 미리 안정화하면 되는 경우가 많다.
PACF·ACF로 차수를 직접 읽는 통계적 방법보다, AIC·BIC 기준의 격자 탐색이 더 견고하고 최적값을 찾을 가능성이 높다.
정상 시계열을 요구하는 이유는 데이터 전체가 같은 분포에 속해야 MLE 같은 추정 기법으로 유효한 파라미터를 구할 수 있기 때문이다.
ARIMA는 AR과 MA의 장점을 모두 취하는 '두 세계의 장점' 모델로, 개별 구성요소를 이해하면 수식이 복잡해 보여도 상당히 직관적이다.

자주 묻는 질문

ARIMA라는 이름은 무엇의 약자인가?

자기회귀(AutoRegressive), 통합(Integrated), 이동평균(Moving Average)의 머리글자를 딴 것으로, 이 세 가지를 결합한 모델이라는 뜻이다. 여기서 통합(I)은 적분이 아니라 차분을 의미한다.

ARIMA를 쓰려면 왜 정상 시계열이 필요한가?

평균·분산 같은 분포 성질이 시간에 따라 일정해야 데이터 전체가 같은 분포에 속하고, 그래야 최대우도추정(MLE)으로 유효한 계수를 구할 수 있기 때문이다. 차분은 평균을, 박스-콕스·로그 변환은 분산을 안정화한다.

차수 p, d, q는 어떻게 정하나?

차분 횟수 d는 증강 디키-풀러(ADF) 검정으로 정상이 될 때까지의 차분 수로 정하고, AR 차수 p는 PACF, MA 차수 q는 ACF에서 유의성이 사라지는 지점으로 읽는다. 실무에서는 여러 조합을 시도해 AIC·BIC가 가장 좋은 조합을 고르는 격자 탐색이 더 흔히 쓰인다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗