AI VIDEO BRIEFING

CRF 조건부 무작위장 이해하기: HMM과의 차이, 생성·판별 모델과 특징 함수·선형 사슬 CRF

조건부 무작위장(CRF)이 은닉 마르코프 모델(HMM)의 어떤 한계를 풀어내는지, 생성 모델과 판별 모델의 차이는 무엇인지, 특징 함수의 역할과 실무에서 쓰는 선형 사슬 CRF의 원리까지 쉽게 정리했습니다.

출처: ritvikmath2022년 3월 1일AI 보조 요약

조건부 무작위장(CRF): 은닉 마르코프 모델을 넘어서는 시퀀스 라벨링 영상 대표 이미지

핵심 메시지

CRF는 은닉 마르코프 모델(HMM)을 더 일반화한 형태로, HMM은 CRF의 특수한 경우로 볼 수 있다.
HMM은 데이터가 어떻게 생성됐는지를 모델링하는 생성 모델이고, CRF는 P(은닉|관측)만 직접 모델링하는 판별 모델이다.
HMM은 전이·방출 확률이 위치와 무관하게 고정되고 의존 관계도 제한적이지만, CRF는 거의 모든 의존 관계를 자유롭게 연결할 수 있다.
CRF의 핵심은 특징 함수다 — 전체 관측 데이터, 이전 은닉 상태, 현재 은닉 상태, 시점 위치를 입력으로 받는 임의의 함수를 자유롭게 정의할 수 있다.
일반 CRF는 계산 부담이 커서 실무에서는 인접한 은닉 상태만 연결하는 선형 사슬 CRF를 주로 쓴다.

쉽게 이해하기

CRF 이야기는 은닉 마르코프 모델(HMM)에서 출발한다. HMM은 단어나 문자처럼 순차적인 데이터를 다루며, 관측되는 상태(예: 단어)가 관측되지 않는 은닉 상태(예: 품사)에서 생성된다고 가정한다. 은닉 상태 사이의 전이 확률과, 은닉 상태에서 관측 단어로 가는 방출 확률로 구조를 설명한다.

HMM은 직관적이지만 한계가 있다. 첫째, 전이·방출 확률이 문장 안 위치와 상관없이 고정돼 있어, 같은 품사 조합이라도 문장 앞이든 뒤든 동일하게 취급한다. 둘째, 의존 관계가 제한적이어서 바로 옆 상태끼리만 연결할 뿐, 문장 앞부분이 중간이나 뒷부분에 미치는 영향 같은 먼 거리 관계를 담지 못한다.

CRF는 이 한계를 푼다. 같은 그래프에서 원하는 거의 모든 화살표(의존 관계)를 그릴 수 있어 은닉 상태와 관측 상태 사이의 관계를 훨씬 유연하게 담는다. 또한 HMM이 은닉·관측의 결합확률 P(y, x)를 모델링하는 생성 모델인 반면, CRF는 관측이 주어졌을 때 은닉 상태의 조건부확률 P(y|x)만 모델링하는 판별 모델이다. 판별 모델은 데이터가 어떻게 생성됐는지는 신경 쓰지 않고 오직 상태를 구분(결정)하는 데 집중한다.

CRF의 심장은 특징 함수다. 특징 함수는 전체 관측 데이터, 직전 은닉 상태, 현재 은닉 상태, 그리고 시점의 인덱스를 입력으로 받는 어떤 함수든 될 수 있다. 예를 들어 "명사 뒤에 부사가 오면 1, 아니면 0" 같은 이진 함수일 수도 있고, 실수 값을 내는 함수일 수도 있으며, 다른 자연어처리 모델의 임베딩을 그대로 넣을 수도 있다. 시점 인덱스를 입력으로 받을 수 있다는 점은 HMM의 고정된 확률 한계를 극복하는 강력한 장치다.

다만 모든 화살표를 자유롭게 그리면 계산 부담이 크고 많은 데이터가 필요하다. 그래서 실무에서는 인접한 은닉 상태끼리만 연결하는 선형 사슬 CRF를 주로 쓴다. 모델링 방식은 로지스틱 회귀와 같은 아이디어를 따른다 — 여러 특징 함수의 가중 합을 지수에 올리고 정규화 상수로 나눠 확률을 만든다. 가중치는 경사 하강법으로 학습하고, 새 데이터의 은닉 상태를 추론할 때는 비터비 알고리즘으로 효율적으로 가장 가능성 높은 조합을 찾는다.

주요 인사이트

단순한 모델(HMM)에서 더 복잡한 모델(CRF)로 갈 때는 "왜 복잡하게 만드는가"를 항상 물어야 한다 — 이유 없는 복잡화는 피해야 한다.
생성 모델과 판별 모델의 차이는 목표의 차이다 — 생성 모델은 데이터의 생성 과정을 설명하려 하고, 판별 모델은 오직 상태를 구분하는 결정에만 집중한다.
특징 함수의 자유로움이 CRF의 유연성과 보편성의 원천이며, 시점 위치를 입력으로 받을 수 있다는 점이 고정 확률에 갇힌 HMM과의 결정적 차이다.
CRF와 로지스틱 회귀는 같은 수학적 형태(특징의 가중 합을 지수에 올리는 방식)를 공유한다 — CRF는 이를 순차 데이터에 적용한 것뿐이다.

자주 묻는 질문

CRF와 HMM의 가장 큰 차이는 무엇인가요?

HMM은 데이터가 어떻게 생성됐는지를 설명하는 생성 모델로, 전이·방출 확률이 위치와 무관하게 고정되고 인접 상태끼리만 연결합니다. CRF는 관측이 주어졌을 때 은닉 상태의 조건부확률만 모델링하는 판별 모델로, 거의 모든 의존 관계를 자유롭게 연결하고 특징 함수로 다양한 특징을 담을 수 있습니다.

특징 함수(feature function)란 무엇인가요?

특징 함수는 전체 관측 데이터, 직전 은닉 상태, 현재 은닉 상태, 시점 인덱스를 입력으로 받는 임의의 함수입니다. "명사 뒤에 부사가 오면 1" 같은 이진 함수일 수도, 실수 값을 내는 함수일 수도 있습니다. 여러 개를 자유롭게 정의할 수 있으며, 각 함수의 중요도(가중치)는 학습으로 정해집니다.

선형 사슬 CRF는 왜 쓰나요?

일반 CRF는 모든 의존 관계를 자유롭게 연결할 수 있지만 계산 부담이 크고 많은 데이터가 필요합니다. 선형 사슬 CRF는 인접한 은닉 상태끼리만 연결해 효율을 얻으면서도, 은닉 상태와 관측 상태 사이의 연결은 여전히 허용해 HMM보다 유연합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗