AI VIDEO BRIEFING
가우시안 프로세스 회귀란? 커널과 공분산 행렬로 예측의 평균과 불확실성을 함께 구하는 법
낚시터에서 어획량을 예측하는 예시로 가우시안 프로세스 회귀를 설명합니다. 다변량 정규분포 가정과 RBF 커널로 채우는 공분산 행렬, 그리고 평균만이 아니라 불확실성까지 함께 구하는 원리를 단계별로 정리했습니다.

핵심 메시지
쉽게 이해하기
가우시안 프로세스를 회귀 문제로 직관적으로 이해하기 위해 낚시 이야기를 들어보자. 당신은 길고 큰 호수에서 낚시하는 어부다. 가로축은 강을 따라 내려간 거리(0~100m), 세로축은 그 지점에서 하루에 잡는 물고기 수다. 지금까지 두 곳만 관측했다. 20m 지점에서 하루 10마리, 100m 지점에서 하루 40마리를 잡았다. 목표는 하루 어획량을 최대화할 다음 지점을 찾는 것인데, 알고 있는 점은 이 두 개뿐이다.
가장 쉬운 방법은 두 점을 직선으로 잇는 단순 선형 회귀로 평균을 추정하는 것이다. 그러나 우리가 정말 알고 싶은 것은 평균만이 아니라 그 추정 주위의 불확실성이다. 예컨대 30m 지점은 알려진 20m와 가깝기 때문에 기대값이 10마리를 조금 넘고 불확실성도 작다. 반면 60m 지점은 양쪽 관측점에서 각각 40m나 떨어져 있어, 평균은 10과 40의 중간인 25마리쯤이지만 불확실성은 훨씬 크다. 즉 알려진 데이터에서 멀수록 불확실성이 커진다.
이 직관을 수학으로 옮기는 핵심 가정은, 알려진 어획량 f(X)와 모르는 지점의 어획량 f(Y)가 평균 μ와 공분산 행렬 Σ를 갖는 다변량 정규분포를 따른다는 것이다. f(X)는 학습 데이터(20m, 100m) 벡터, f(Y)는 예측하려는 지점(30·60·90m) 벡터다. 단순화를 위해 평균 μ는 영벡터로 둔다. 이것이 모든 예측 평균이 0이 된다는 뜻은 아니다. 나중에 조건부 분포를 세우면 그 평균은 더 이상 0이 아니게 된다.
가우시안 프로세스 회귀의 힘은 공분산 행렬 Σ를 어떻게 채우느냐에 있다. 5개 데이터점(학습 2 + 예측 3)이면 5×5 = 25개 항목을 커널로 채운다. 가장 널리 쓰이는 RBF 커널은 Σij = σ²·exp(-d²/2l²) 형태로, 여기서 d는 두 점 사이의 거리다. 음의 지수 때문에 거리가 멀수록 공분산이 지수적으로 작아진다. 직관적으로는 "멀리 있는 점끼리는 서로의 함수값에 영향을 덜 준다"는 이야기를 그대로 수식으로 옮긴 것이다. σ는 전체 분산의 크기를, l은 감소 속도를 조절하며, 거리가 0이면 Σ는 σ²이 되어 그 점의 분산을 나타낸다.
이 커널은 실제 좌표가 아니라 점들 사이의 거리에만 의존한다. 그래서 20m와 30m, 90m와 100m처럼 거리가 똑같이 10m이면 공분산 값(예: 98)도 같고, 대각선은 모두 σ²(여기선 100)이며 행렬은 대칭이다. 이렇게 결합 정규분포를 얻은 뒤, 정규분포의 성질(주변화와 조건화)을 이용하면 f(X)가 주어졌을 때 f(Y)의 조건부 분포 역시 평균 μ′와 공분산 Σ′를 갖는 정규분포가 된다. μ′는 공분산 행렬과 알려진 어획값으로, Σ′는 공분산 행렬만으로 닫힌 형태로 구해진다. 정규분포를 쓰는 이유, 그리고 "가우시안 프로세스"라 부르는 이유가 바로 이 좋은 성질들 때문이다.
계산해 보면 30m는 약 14마리(표준편차 1.7), 60m는 약 28.4마리(더 큰 표준편차), 90m도 표준편차 1.7로 나온다. 양쪽 데이터에서 먼 60m의 불확실성이 더 크다는 것이 정확히 우리가 기대한 결과다. 곡선으로 그리면 관측한 20m·100m에서는 불확실성이 0이고, 멀어질수록 표준편차가 커지다가 두 점에서 가장 먼 지점에서 최대가 된다. 끝으로 커널 선택은 매우 중요하다. RBF 외에 주기적 커널은 순환적 관계를 가정하고, 커널들을 창의적으로 조합할 수도 있으며 σ·l 같은 초매개변수도 결과를 크게 바꾼다. 또 관측점에도 불확실성이 있는 현실로 모델을 확장할 수 있고, 이 전체 틀은 사전분포에 데이터를 더해 사후분포를 갱신하는 베이지안 통계의 한 사례다.
주요 인사이트
- 단순 선형 회귀가 점 추정만 주는 것과 달리, 가우시안 프로세스 회귀는 평균과 불확실성(분포)을 함께 제공한다.
- 예측의 불확실성은 알려진 데이터와의 거리로 정해진다 — 가까우면 작고 멀면 크다.
- RBF 커널 Σij=σ²exp(-d²/2l²)은 "가까운 점일수록 더 큰 영향을 준다"는 직관을 그대로 수식화한 것이다.
- 커널은 실제 좌표가 아니라 점들 사이 거리에만 의존하므로, 같은 거리면 같은 공분산을 갖고 행렬은 대칭이다.
- 평균을 0으로 둬도 조건부 분포의 평균 μ′는 공분산 행렬과 관측값으로 결정돼 0이 아니게 된다.
자주 묻는 질문
가우시안 프로세스 회귀는 일반 선형 회귀와 무엇이 다른가요?
선형 회귀는 각 지점의 평균(점 추정)만 주지만, 가우시안 프로세스 회귀는 평균과 함께 그 추정 주위의 불확실성(전체 분포)을 알려줍니다.
예측의 불확실성은 어떻게 정해지나요?
알려진 데이터점과의 거리로 정해집니다. 관측한 지점에서 가까운 위치는 불확실성이 작고, 멀리 떨어진 위치일수록 표준편차가 커집니다.
공분산 행렬은 어떻게 채우나요?
커널 함수로 채웁니다. 가장 널리 쓰이는 RBF 커널은 두 점의 거리가 멀수록 공분산을 지수적으로 줄여, 가까운 점끼리 서로의 값에 더 큰 영향을 주도록 만듭니다.
평균을 0으로 가정하면 모든 예측이 0이 되나요?
아닙니다. 사전 평균은 0으로 두지만, f(X)가 주어졌을 때의 조건부 분포 평균 μ′는 공분산 행렬과 알려진 관측값으로 계산되어 0이 아닌 값으로 갱신됩니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗