AI VIDEO BRIEFING

워드 임베딩 완전 정리: word2vec·GloVe부터 트랜스포머 문맥 임베딩까지

단어를 벡터로 바꾸는 워드 임베딩의 원리와 활용, 빈도 기반과 예측 기반 방식, word2vec·GloVe, 그리고 트랜스포머의 문맥 임베딩까지 쉽게 정리했습니다.

출처: IBM Technology2024년 8월 20일AI 보조 요약

핵심 메시지

워드 임베딩은 단어를 의미적 관계가 담긴 숫자 벡터로 표현하는 기술로, 의미가 비슷한 단어는 벡터 공간에서 가까이 위치한다.
대부분의 머신러닝 알고리즘은 원시 텍스트를 그대로 처리하지 못하기 때문에 단어를 숫자로 바꾸는 임베딩이 필요하다.
임베딩 방식은 단어 출현 빈도에 기반한 방식(TF-IDF)과 문맥을 예측하는 방식(word2vec 등)으로 나뉜다.
word2vec(구글, 2013)과 GloVe(스탠퍼드, 2014)가 대표적이며, 트랜스포머는 문맥에 따라 표현이 달라지는 문맥 임베딩을 사용한다.

쉽게 이해하기

워드 임베딩은 단어를 숫자, 구체적으로는 수치 벡터로 표현해 단어 사이의 의미적 관계와 문맥 정보를 담는 방법이다. 의미가 비슷한 단어는 서로 가까운 위치에 놓이며, 벡터 사이의 거리와 방향이 단어들의 유사도를 나타낸다. 굳이 단어를 숫자로 바꾸는 이유는 대부분의 머신러닝 알고리즘이 원시 형태의 텍스트를 처리하지 못하고 입력으로 숫자를 요구하기 때문이다.

임베딩은 자연어 처리(NLP)의 기본 도구가 되었다. 스팸 탐지와 주제 분류 같은 텍스트 분류, 사람·장소·조직 이름을 식별하는 개체명 인식(NER), 단어 유사도와 유추(왕 대 여왕은 남자 대 여자) 과제, 질의응답, 그리고 관련 문서 군집화나 유사 항목 추천 등에 두루 쓰인다.

임베딩은 위키피디아처럼 방대한 말뭉치로 모델을 학습시켜 만든다. 토큰화, 불용어와 문장부호 제거 같은 전처리를 거친 뒤, 슬라이딩 문맥 창으로 대상 단어와 주변 단어를 파악하고 문맥을 바탕으로 예측하도록 학습한다. 학습 과정에서 예측 오류가 줄도록 파라미터를 조정하면 의미가 비슷한 단어들이 벡터 공간에서 가까이 모인다. 단어 6개를 3차원 벡터로 표현하면 apple과 orange는 가깝고 happy와 sad는 반대 방향에 놓이지만, 실제 임베딩은 보통 수백 차원을 사용해 더 미묘한 의미 차이까지 담는다.

임베딩을 만드는 방식은 크게 두 가지다. 빈도 기반은 단어가 말뭉치에 얼마나 자주 등장하는지로 중요도를 추정하는데, 대표적인 TF-IDF는 특정 문서에서는 자주 나오지만 전체 말뭉치에서는 드문 단어를 강조한다. 커피 문서라면 espresso나 cappuccino를 부각하고, 모든 문서에 흔한 the·and 같은 단어에는 낮은 점수를 준다. 예측 기반은 문맥에서 의미 관계를 포착해, 'dog'를 bark·wag·tail 같은 단어와 연결하며 의미가 가까운 단어들을 더 잘 구분한다.

대표 모델로는 구글이 2013년 내놓은 word2vec이 있다. 주변 문맥으로 대상 단어를 예측하는 CBOW와 그 반대인 skip-gram 두 구조를 가진다. 2014년 스탠퍼드에서 만든 GloVe는 말뭉치 전체의 동시 출현 통계를 활용해 더 넓은 시야로 벡터를 만든다. 한편 트랜스포머는 단어마다 고정된 벡터를 주는 전통 방식과 달리, 문맥에 따라 표현이 바뀌는 문맥 기반 임베딩을 쓴다. 같은 'bank'라도 '돈을 입금하는 은행'과 '강둑'에서 서로 다르게 표현돼 더 정교한 의미 파악이 가능하다.

주요 인사이트

벡터 사이의 거리뿐 아니라 방향까지 의미를 담기 때문에, '왕-여왕', '남자-여자' 같은 유추 관계를 수치 연산으로 다룰 수 있다.
TF-IDF는 흔한 단어를 누르고 특정 문서를 대표하는 단어를 끌어올리는 방식으로, 단순 빈도와 희소성을 함께 고려한다.
word2vec이 단어 바로 주변의 즉각적 문맥에서 배우는 반면, GloVe는 말뭉치 전체의 동시 출현 통계를 보는 점에서 접근 방식이 다르다.
트랜스포머의 문맥 임베딩은 같은 단어라도 쓰임에 따라 표현을 달리해 다의어 문제를 해결하며 NLP 성능을 크게 끌어올렸다.

자주 묻는 질문

왜 단어를 숫자(벡터)로 바꿔야 하나요?

대부분의 머신러닝 알고리즘은 원시 텍스트를 그대로 처리하지 못하고 입력으로 숫자를 요구하기 때문입니다. 워드 임베딩은 단어를 의미 관계가 담긴 수치 벡터로 바꿔 이 문제를 해결합니다.

빈도 기반 임베딩과 예측 기반 임베딩은 어떻게 다른가요?

빈도 기반(예: TF-IDF)은 단어가 말뭉치에 얼마나 자주 등장하는지로 중요도를 추정합니다. 예측 기반은 문맥에서 단어 관계를 학습해 의미적·문맥적 정보를 포착하며, 의미가 가까운 단어를 더 잘 구분합니다.

트랜스포머의 임베딩은 기존 word2vec, GloVe와 무엇이 다른가요?

word2vec과 GloVe는 단어마다 고정된 벡터를 부여하지만, 트랜스포머는 문맥에 따라 표현이 달라지는 문맥 기반 임베딩을 사용합니다. 그래서 'bank'처럼 여러 뜻을 가진 단어를 문장에 맞게 다르게 표현할 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗