AI VIDEO BRIEFING

TF-IDF 개념 쉽게 이해하기: 단어 빈도와 역문서 빈도로 문서의 핵심어 찾는 원리

TF-IDF는 여러 문서로 이뤄진 말뭉치에서 특정 단어가 한 문서에 얼마나 중요한지를 수치로 나타내는 텍스트 처리 지표다. 단어 빈도와 역문서 빈도의 곱으로 핵심어를 가려내는 원리를 예시로 설명한다.

출처: ritvikmath2020년 11월 11일AI 보조 요약

TF-IDF란? 문서에서 정말 중요한 단어를 가려내는 텍스트 분석 지표 영상 대표 이미지

핵심 메시지

TF-IDF는 여러 문서(말뭉치)에서 특정 단어가 한 문서에 얼마나 중요한지를 숫자로 나타내는 지표다.
단어 빈도(TF)와 역문서 빈도(IDF) 두 값을 곱해 계산한다.
TF만 쓰면 '그', '및' 같은 흔한 단어가 과대평가되는데, IDF가 이를 0에 가깝게 눌러준다.
여러 문서에 두루 나오는 단어일수록 변별력이 낮아 가중치가 작아지고, 드물게 나오는 단어일수록 가중치가 커진다.

쉽게 이해하기

TF-IDF는 같은 주제의 여러 문서 묶음, 즉 말뭉치(corpus)에서 출발한다. 영상은 클린턴·부시·오바마의 취임 연설 세 편을 예로 든다. 목표는 어떤 단어가 특정 연설에서 말뭉치 전체 대비 얼마나 중요한지를 나타내는 수치를 얻는 것이다. 이렇게 하면 특정 연설을 다른 연설과 구별 짓는 특징어를 찾을 수 있다.

첫 번째 구성 요소인 단어 빈도(TF)는 한 문서에서 그 단어가 나온 횟수를 그 문서의 전체 단어 수로 나눈 값이다. 예컨대 오바마 연설 1,000단어 중 'healthcare'가 10번 나오면 TF는 0.01이다. 직관적이지만, 'the', 'a', 'and' 같은 문법적 단어는 어느 문서에서나 빈도가 높아 TF만으로는 특징어를 가려낼 수 없다.

그래서 역문서 빈도(IDF)가 등장한다. IDF는 전체 문서 수(N)를 그 단어를 포함한 문서 수로 나눈 값에 로그를 취한 것이다. 'the'처럼 세 문서 모두에 나오면 3÷3의 로그, 즉 0이 되어 변별력이 없다고 판단한다. 반대로 'healthcare'가 오바마 연설에만 나오면 3÷1의 로그가 되어 더 큰 값을 갖는다.

최종 TF-IDF는 TF와 IDF의 곱이다. 'a' 같은 단어는 TF가 커도 IDF가 0이라 결과가 0이 되고, 'healthcare'처럼 특정 문서에만 나오는 단어는 양수가 되어 그 문서를 구별하는 데 도움이 된다. 만약 'healthcare'가 클린턴 연설에도 나오면 IDF가 log(3/2)로 줄어 TF-IDF도 낮아지는데, 이는 단어가 더 이상 한 연설만의 특징이 아님을 반영한다.

주요 인사이트

TF-IDF의 핵심 아이디어는 '한 문서에 자주 나오면서(TF) 동시에 전체적으로는 드문(IDF) 단어'가 그 문서를 가장 잘 대표한다는 것이다.
IDF의 로그 구조 덕분에 모든 문서에 등장하는 흔한 단어의 가중치가 0으로 수렴해, 불용어를 따로 제거하지 않아도 자연스럽게 걸러지는 효과가 있다.
말뭉치가 커지고 특정 단어를 포함한 문서 비율이 높아질수록 그 단어의 중요도는 점점 낮아져, 변별력 기준이 말뭉치 전체에 상대적으로 정해진다.

자주 묻는 질문

TF-IDF는 무엇을 측정하나요?

여러 문서로 이뤄진 말뭉치에서 특정 단어가 한 문서에 대해 얼마나 중요한지를 나타내는 수치입니다. 그 문서를 다른 문서와 구별 짓는 특징어를 찾는 데 쓰입니다.

TF만으로는 왜 부족한가요?

'the', 'a', 'and' 같은 문법적 단어는 어느 문서에서나 빈도가 높아, 단어 빈도만 보면 정작 문서를 구별하는 특별한 단어를 가려낼 수 없기 때문입니다.

역문서 빈도(IDF)는 어떻게 작동하나요?

전체 문서 수를 그 단어가 등장한 문서 수로 나눈 뒤 로그를 취합니다. 모든 문서에 나오는 단어는 0이 되고, 드물게 나오는 단어일수록 큰 값을 가져 가중치가 커집니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗