AI VIDEO BRIEFING

추천 시스템 작동 원리: 콘텐츠 필터링과 협업 필터링, 행렬 분해

2006년 넷플릭스 상금 문제에서 출발해 추천 시스템이 사용자 취향을 예측하는 수학을 정리했다. 콘텐츠 필터링과 협업 필터링, 행렬 분해와 잠재 특징의 차이를 쉽게 설명한다.

출처: Art of the Problem2020년 2월 28일AI 보조 요약

추천 시스템의 수학 — 넷플릭스는 어떻게 당신의 취향을 예측하나 영상 대표 이미지

핵심 메시지

추천 문제는 '사용자의 과거 행동을 보고 그가 좋아할 다른 것을 예측'하는 것으로, 사용자×아이템 행렬의 빈 칸을 채우는 일이다.
사람의 취향은 보지 못한 미래에 대한 추측이고 시간에 따라 변하기에 완벽한 예측은 불가능하며, 가진 데이터로 최선의 추정을 할 뿐이다.
콘텐츠 필터링은 사람이 정의한 특징(액션·코미디 등)으로 사람과 영화를 라벨링해 곱셈으로 선호를 추정한다.
협업 필터링은 특징을 사람이 정하지 않고, 선호 데이터의 패턴에서 '잠재 특징'을 행렬 분해로 직접 학습한다.
협업 필터링은 일종의 압축이기도 하다. 큰 선호 행렬을 두 개의 작은 특징 행렬로 표현할 수 있는 건 데이터에 공유된 패턴이 있기 때문이다.

쉽게 이해하기

2006년 넷플릭스는 오래된 한 문제를 풀기 위해 상금을 걸었다. 온라인 상거래 기업들이 모두 매달리는 그 문제는 '사용자의 과거 행동을 관찰해 그가 좋아할 다른 것을 예측하라'는 것이다. 사용자와 영화를 양쪽에 두고 선호의 세기를 선의 굵기로 잇는 그래프에서, 아직 모르는 빨간 연결을 채우는 일로 볼 수 있다.

다만 사람의 취향은 본질적으로 다루기 어렵다. 한 번도 보지 못한 것에 대한 미래의 추측인 데다, 취향 자체가 시간에 따라 변하기 때문이다. 그래서 완벽한 예측 대신 가진 데이터로 최선의 추정을 한다. 이를 수학적으로는 행렬로 표현한다. 행은 사용자, 열은 영화, 각 칸은 0(싫음)~4(좋음) 같은 선호 점수다. 사용자는 일부 영화만 봤으니 행렬 대부분은 비어 있고, 그 빈 칸을 예측하는 것이 과제다.

첫 번째 접근은 콘텐츠 필터링이다. 사람과 영화에 '액션', '코미디' 같은 알려진 특징(피처)을 라벨로 붙인다. 앨리스가 코미디를 좋아하고 액션을 싫어하면 (3,0), 매트릭스가 코미디는 없고 액션만 강하면 (0,4)로 표현하고, 두 값을 곱해 연결 세기를 추정한다(3×0+0×4=0 → 싫어할 것으로 추정). 사용자·영화별 특징 행렬을 곱하면 모든 칸의 예측이 한꺼번에 나온다.

콘텐츠 필터링의 한계는 지나치게 단순하고 부정확하다는 점이다. 영화엔 코미디·액션 말고도 중요한 특징이 많다. 특징을 늘리면 되지만, 초창기 넷플릭스처럼 사용자에게 긴 취향 설문을 받아야 하고, 사람은 자기 취향을 잘 설명하지 못해(왜 좋은지 모르고 그냥 좋아하기도 한다) 실패하기 쉽다.

그래서 등장한 것이 협업 필터링이다. '나와 비슷한 시청 습관을 가진 사람들이 좋아하는 것을 나도 좋아할 가능성이 높다'는 발상으로, 2009년 코렌·벨·볼린스키 논문으로 대중화됐다. 특징을 사람이 정의하는 대신, 가진 선호 데이터를 두 행렬로 근사 분해하는 머신러닝으로 패턴에서 직접 특징을 '발견'한다. 알고리즘은 기존 데이터를 가장 잘 맞히도록 두 행렬의 값을 추정하고, 이렇게 찾은 특징은 코미디처럼 이름 붙일 수 없어 '잠재 특징'이라 부른다. 이는 데이터에 공유된 패턴이 있기에 가능한 일종의 압축이며, 같은 원리는 정책 효과를 미리 가늠하는 '합성 통제'처럼 다른 분야에도 응용된다.

주요 인사이트

콘텐츠 필터링과 협업 필터링의 본질적 차이는 '특징이 어디서 오는가'다. 전자는 사람의 머리에서, 후자는 데이터의 패턴에서 나온다.
잠재 특징은 사람이 해석해 이름 붙일 수 없는 추상적 차원이지만, 바로 그 때문에 사람이 언어로 못 푸는 취향까지 포착해 더 정확하다.
추천은 예측이면서 동시에 압축이다. 큰 선호 행렬을 작은 두 행렬로 줄일 수 있는 이유는 데이터가 무작위가 아니라 패턴을 따르기 때문이다.
완벽한 예측은 원리적으로 불가능하다. 취향은 미래에 대한 추측이고 시간에 따라 변하기 때문에, 목표는 정답이 아니라 최선의 추정이다.
협업 필터링의 사고방식은 추천을 넘어, 비슷한 사례로 결과를 가늠하는 합성 통제처럼 정책 평가에도 쓰인다.

자주 묻는 질문

콘텐츠 필터링과 협업 필터링의 차이는?

콘텐츠 필터링은 사람이 정의한 특징(액션·코미디 등)으로 사람과 아이템을 라벨링해 예측한다. 협업 필터링은 특징을 사람이 정하지 않고 선호 데이터의 패턴에서 잠재 특징을 직접 학습한다.

'잠재 특징'이란 무엇인가?

협업 필터링이 선호 데이터의 패턴에서 발견한 특징으로, 코미디처럼 사람이 이름 붙인 것이 아니라 데이터 패턴에서 떠오른 차원이라 정확히 무엇이라 라벨할 수 없다.

추천이 왜 압축이기도 한가?

거대한 선호 행렬을 두 개의 작은 특징 행렬로 표현할 수 있기 때문이다. 이것이 가능한 이유는 선호 데이터가 무작위가 아니라 사람들 사이에 공유된 패턴을 따르기 때문이다.

왜 취향을 완벽히 예측할 수 없나?

보지 못한 것에 대한 미래의 추측인 데다, 사람의 취향이 시간에 따라 계속 변하기 때문이다. 그래서 가진 데이터로 최선의 추정만 할 수 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗