AI VIDEO BRIEFING

대규모 언어모델 작동 원리 쉽게 보기: 토큰·임베딩·어텐션과 다음 단어 예측

챗봇 뒤의 대규모 언어모델이 문장을 토큰으로 쪼개 숫자로 바꾸고, 여러 층에서 병렬로 다음 단어를 예측하며, 어텐션으로 정보를 주고받는 기본 원리를 예시와 함께 설명한다.

출처: ILLC Science2023년 11월 20일AI 보조 요약

대규모 언어모델은 어떻게 작동하는가: 토큰에서 다음 단어 예측까지 영상 대표 이미지

핵심 메시지

언어모델은 입력 문장을 단어나 토큰으로 쪼개고, 각 토큰을 임베딩이라는 숫자열로 바꿔 계산을 시작한다.
모델은 한 번에 한 단어씩 답을 생성하며, 각 층에서 모든 단어에 대해 병렬로 다음 단어를 예측한다.
어텐션 헤드와 다층 퍼셉트론 같은 부품들이 문법, 상위 언어 구조, 사실 정보 등 서로 다른 역할을 나눠 맡는다.
부품들은 쿼리·키·값이라는 숫자열을 주고받는 멀티헤드 어텐션으로 정보를 교환하며, 모든 메시지가 숫자라 표준 머신러닝으로 최적값을 학습할 수 있다.
마법은 없지만 모델을 거대한 규모로 키우자 세상을 놀라게 한 능력이 나타났다.

쉽게 이해하기

이 영상은 챗봇에 질문을 입력했을 때 그 뒤의 대규모 언어모델 안에서 무슨 일이 일어나는지 시각적으로 설명한다. 예로 '찰스 다윈의 가장 유명한 책은 무엇인가'를 입력하면, 문장은 먼저 단어나 토큰으로 쪼개지고 각 단어는 임베딩이라 불리는 숫자열로 변환된다. 이 숫자들을 바탕으로 모델은 각 단어에 대한 계산을 서로 병렬로 진행한다.

모델은 처리 단계마다 다음에 올 단어를 예측한다. 'what' 같은 단어는 거의 즉시 다음이 'is'일 것으로 확신하지만, 'Charles' 열에서는 처음엔 갈피를 못 잡다가 결국 'Dickens'로 수렴한다. 다만 사용자가 이미 질문과 답의 시작('Darwin wrote')을 입력했기 때문에, 이런 중간 예측들은 실제 출력에 직접 쓰이지는 않는다.

모델이 답을 넘겨받아 'wrote' 다음을 생성할 때, 처음 몇 단계는 영어에서 흔히 뒤따르는 단어들을 예측하다가, 뒤로 갈수록 질문의 맥락을 파악해 적절한 답이 'the'로 시작해야 함을 알아낸다. 예컨대 21번째 층에서 모델은 'X의 가장 유명한 Y' 같은 문법 구조를 이해하고, 다윈이 쓴 책 중 가장 유명한 것이 '종의 기원'임을 알아야 한다.

모델이 지식을 정확히 어떻게 표현하는지는 워낙 크기 때문에 알기 어렵지만, 기본 부품들의 작동 방식은 알려져 있다. 어텐션 헤드와 다층 퍼셉트론이라는 부품들은 영어 문법의 소유격 's, '무엇의 가장 유명한 무엇' 같은 상위 구조, 책 제목·저자 이름 같은 사실 정보 등 저마다 전문 역할을 맡는다. 받거나 생성하는 단어마다 수천 개의 부품이 병렬로 작동한다.

부품들 사이의 핵심 소통 방식은 멀티헤드 어텐션이다. 한 부품이 정보를 요청하는 쿼리를 보내고 다른 부품이 정보를 제공하는 키를 내놓아 둘이 맞으면 값이 전달되는데, 이 모든 메시지는 사람이 해석하기 어려운 숫자열일 뿐이다. 숫자이기에 표준 머신러닝으로 방대한 텍스트를 학습해 다음 단어 예측에 최적인 값을 찾을 수 있으며, 학습이 끝나면 인터넷이나 학습 데이터가 더는 필요하지 않다. 결국 마법은 없지만 규모를 거대하게 키우자 놀라운 능력이 나타났다.

주요 인사이트

언어모델의 답 생성은 '한 번에 한 단어'씩 이뤄지며, 각 층에서 프롬프트와 지금까지의 답에 있는 모든 단어 정보를 어텐션으로 결합해 예측을 만든다.
각 단어 열의 중간 예측들은 모델이 제대로 작동하는 데 꼭 필요하지만, 사용자가 이미 입력한 부분에 대해서는 실제 출력으로 사용되지 않는다.
쿼리·키·값은 모두 숫자열이라는 점이 중요하다. 덕분에 컴퓨터가 부품 간에 빠르게 전달하고 표준 머신러닝으로 최적값을 학습할 수 있다.
특정 부품은 저자 이름을, 다른 부품은 책 제목을 전문으로 다루는 식으로 역할이 분화되어 있어, '저자 이름 있음'이라는 키와 '저자 이름 요청'이라는 쿼리가 맞으면 정보가 연결된다.
영상은 '여기에 마법은 없다'고 강조하면서도, 모델을 거대한 규모로 확장한 것만으로 예상치 못한 능력이 등장했다는 점을 핵심으로 짚는다.

자주 묻는 질문

입력한 문장은 모델 안에서 가장 먼저 어떻게 처리되나요?

문장이 단어나 토큰 단위로 쪼개지고, 각 토큰이 임베딩이라 불리는 숫자열로 변환됩니다. 모델은 이 숫자들을 바탕으로 각 단어에 대한 계산을 병렬로 진행합니다.

멀티헤드 어텐션에서 쿼리·키·값은 무엇을 의미하나요?

쿼리는 정보를 요청하는 메시지, 키는 정보를 제공하겠다는 메시지, 값은 키와 쿼리가 맞을 때 실제로 전달되는 정보입니다. 셋 다 숫자열이며, 예컨대 책 제목 부품이 저자 이름을 요청하면 저자 이름 부품의 정보가 전달됩니다.

모델은 학습이 끝난 뒤에도 인터넷이나 학습 데이터가 필요한가요?

아니요. 영상은 학습이 끝나면 대규모 언어모델이 더 이상 인터넷이나 학습 세트에 접근할 필요가 없다고 설명합니다.

영상은 언어모델의 능력이 어디서 나온다고 보나요?

특별한 마법이 있는 것이 아니라, 다음 단어 예측이라는 과제를 위해 모델을 거대한 규모로 확장한 결과 세상을 놀라게 한 능력이 나타났다고 봅니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗