AI VIDEO BRIEFING

Word2Vec 워드 임베딩 쉽게 이해하기: 단어 벡터·코사인 유사도와 CBOW·스킵그램

2013년 워드투벡이 대중화한 워드 임베딩을 빅5 성격 점수 비유와 코사인 유사도 비교, 슬라이딩 윈도우 학습, CBOW·스킵그램·네거티브 샘플링, 그리고 문맥화 임베딩으로 가는 흐름까지 풀이한다.

출처: Jay Alammar2022년 9월 14일AI 보조 요약

워드투벡(Word2Vec): 단어를 '의미를 담은 숫자 벡터'로 바꾸는 법 영상 대표 이미지

핵심 메시지

임베딩은 텍스트와 단어를 의미를 담은 숫자 벡터로 표현하는 개념이고, 2013년 발표된 워드투벡이 이 아이디어를 대중화한 방법 중 하나다.
사람의 성격을 빅5 점수 다섯 개로 나타내듯 단어도 여러 숫자로 표현하며, 더 많은 정보를 담을수록 더 큰 벡터가 필요하다.
임베딩의 핵심 직관은 둘이다. 사람·상품·단어·문장 등 많은 것을 숫자열로 표현할 수 있고, 벡터로 표현하면 코사인 유사도 등으로 수치 비교가 가능해 추천·분류·군집화에 쓸 수 있다.
워드투벡은 방대한 텍스트에 슬라이딩 윈도우를 적용해 '다음 단어 예측' 같은 학습 예시를 잇따라 만들어 임베딩을 학습한다.
CBOW와 스킵그램, 그리고 학습을 효율화하는 네거티브 샘플링이 워드투벡의 주요 아이디어다.

쉽게 이해하기

언어를 다루는 일을 한다면 임베딩을 알아야 한다. 임베딩은 텍스트와 단어를 의미를 담은 숫자 벡터로 표현하는 개념이다. 2013년 발표된 워드투벡은 이 아이디어를 널리 알린 방법 중 하나다. 다만 발표자는 지금은 더 나은 방법이 많으므로, 워드투벡의 정확한 작동보다 '단어를 벡터로'라는 개념 자체가 더 중요하다고 강조한다. 그래도 워드투벡을 따라가 보면 임베딩을 어떻게 만들고, 방대한 텍스트로 어떻게 학습하는지 직관을 얻을 수 있다.

임베딩은 사람에게도 적용된다. 빅5 성격검사를 받으면 외향성·부정 정서·성실성·우호성·경험 개방성 같은 특성에 점수가 매겨지는데, 이 다섯 숫자가 곧 성격의 임베딩이다. 특성을 하나만 쓰면 사람을 거의 설명하지 못하므로 차원을 늘려 간다. 흥미로운 점은 임베딩에서는 각 차원이 특정 의미축에 정확히 대응하지 않는다는 것이다. 우리는 차원이 무엇을 뜻하는지 콕 집어 말할 수 없는데, 이는 임베딩을 다루며 익숙해져야 할 특성이다.

임베딩의 핵심 직관은 두 가지다. 첫째, 사람·상품·단어·문장·문단·책처럼 아주 많은 것을 숫자열로 표현할 수 있고, 담고 싶은 정보가 많을수록 더 큰 임베딩이 필요하다. 둘째, 일단 벡터로 표현하면 코사인 유사도 같은 방법으로 둘이 얼마나 비슷한지 수치로 계산할 수 있다. 영상에서는 내 성격 벡터와 다른 두 사람의 벡터가 얼마나 비슷한지를 점수로 비교하는 예를 든다. 이 두 직관만 가져가도 핵심은 충분하다. 이렇게 비교가 가능해지면 추천 시스템·분류·군집화를 만들 수 있다.

단어 임베딩 자체로 들어가면, 예컨대 'king'이라는 단어에 들어가는 숫자들을 시각화하고, 'man'과 'woman'의 임베딩이 어떻게 다른지를 색으로 표현해 보여 준다. 그리고 이 임베딩을 학습하는 방법으로 언어 모델링, 즉 다음 단어 예측을 설명한다. 모델에 입력 단어 두 개를 주고 세 번째 단어를 맞히게 하는 식이며, 이렇게 다음 단어를 예측하는 과정에서 임베딩이 만들어진다.

학습 데이터는 슬라이딩 윈도우로 만든다. 예컨대 한 문장에 세 단어 창을 놓으면 입력 단어 두 개와 출력 단어 하나로 된 학습 예시가 하나 나오고, 창을 한 칸씩 옮겨 가며 예시를 계속 만들어 모델을 훈련한다. 여기에 좌우를 보는 방식인 백오브워즈(CBOW)와 스킵그램, 그리고 학습을 더 효율적으로 만드는 네거티브 샘플링이 더해진다. 워드투벡 이후로는 문맥에 따라 표현이 달라지는 문맥화 임베딩(BERT, GPT 등)이 등장했고, 임베딩 개념은 최신 트랜스포머 모델에서도 모델 크기의 큰 부분을 차지할 만큼 핵심으로 남아 있다.

주요 인사이트

워드투벡 알고리즘 자체보다 '단어를 벡터로 표현한다'는 개념이 더 중요하다. 지금은 더 나은 방법이 많지만 이 개념은 트랜스포머 등 최신 모델에서도 핵심으로 쓰인다.
임베딩의 각 차원은 특정 의미축에 정확히 대응하지 않는다. 차원이 무엇을 뜻하는지 콕 집어 말할 수 없다는 점이 임베딩의 특성이다.
임베딩은 단어뿐 아니라 이미지·사람·상품·문장·문단·책 등 다른 데이터로도 확장된다. 무엇이든 벡터로 표현하면 비교가 가능해진다.
워드투벡 이후 등장한 문맥화 임베딩(BERT·GPT 등)은 같은 단어라도 문맥에 따라 표현이 달라진다는 점에서 고정 벡터를 주는 워드투벡과 구분된다.

자주 묻는 질문

임베딩이란 무엇인가?

텍스트나 단어 같은 대상을 의미를 담은 숫자 벡터로 표현하는 것이다. 빅5 성격검사가 사람을 다섯 숫자로 나타내듯, 단어도 여러 숫자로 나타내 비교하고 계산할 수 있게 한다.

임베딩으로 무엇을 할 수 있나?

대상을 벡터로 표현하면 코사인 유사도 등으로 둘이 얼마나 비슷한지 수치로 계산할 수 있고, 이를 바탕으로 추천 시스템·분류·군집화를 만들 수 있다.

워드투벡은 어떻게 학습하나?

방대한 텍스트에 슬라이딩 윈도우를 적용해, 예컨대 세 단어 창에서 입력 단어들로 다음 단어를 맞히는 학습 예시를 잇따라 만들어 모델을 훈련한다. CBOW·스킵그램과 네거티브 샘플링이 주요 기법이다.

워드투벡 이후엔 무엇이 나왔나?

단어마다 고정된 벡터를 주는 워드투벡과 달리, BERT·GPT 같은 모델의 문맥화 임베딩은 같은 단어라도 문맥에 따라 표현이 달라진다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗