AI VIDEO BRIEFING
어텐션(Attention) 작동 원리: 쿼리·키·밸류와 멀티헤드까지 쉽게 이해하기
ChatGPT를 만든 트랜스포머의 핵심인 어텐션 메커니즘을 쿼리·키·밸류, 소프트맥스, 마스킹, 멀티헤드 어텐션까지 직관적인 예시로 풀어 설명합니다.

핵심 메시지
쉽게 이해하기
트랜스포머는 2017년 'Attention Is All You Need' 논문에서 처음 제시된 이후 대부분의 AI 모델 구조에 쓰이고 있다. 입력 텍스트는 토큰으로 나뉘어 고차원 벡터(임베딩)가 되는데, 이 공간에서 벡터의 '방향'이 의미를 담는다. 어텐션의 목표는 단순히 단어를 인코딩하는 것을 넘어, 임베딩을 여러 단계로 바꿔 가며 더 풍부한 문맥적 의미를 담게 하는 것이다.
예컨대 'mole(두더지·분자·점)'처럼 다의어는 문맥에 따라 의미 방향이 달라져야 하고, 'tower'도 앞에 'Eiffel'이 붙으면 파리·철 구조물 쪽으로, 'miniature'가 붙으면 반대로 움직여야 한다. 어텐션은 한 단어의 정보를 멀리 떨어진 다른 단어로 옮겨, 최종적으로 마지막 벡터가 전체 문맥을 담아 다음 단어를 예측하도록 만든다.
구체적으로는 각 토큰 임베딩에 쿼리 행렬(WQ)과 키 행렬을 곱해 보통 128차원 정도의 쿼리·키 벡터를 만든다. 쿼리는 '나를 설명해 줄 단어가 뭐야?'라는 질문, 키는 그 답 후보다. 쿼리와 키의 내적이 크면 두 단어가 관련 깊다는 뜻이고, 이를 '주목(attend)한다'고 표현한다. 내적값에 소프트맥스를 적용해 확률 분포처럼 정규화한 것이 어텐션 패턴(어텐션 맵)이다.
GPT 학습은 한 문장에서 여러 예측 예시를 동시에 만들기 때문에, 뒤 단어가 앞 단어에 영향을 주면 정답을 미리 보는 셈이 된다. 이를 막는 장치가 마스킹으로, 소프트맥스 적용 전에 해당 위치 값을 음의 무한대로 설정해 영향을 0으로 만든다. 한편 어텐션 맵의 크기는 문장 길이의 제곱에 비례해, 긴 문맥 처리를 위한 연구가 이어지고 있다.
마지막으로 밸류(V) 행렬을 곱해 얻은 밸류 벡터를 가중치에 따라 더해 임베딩을 갱신한다. 밸류는 보통 작은 공간으로 내렸다가(밸류 다운) 다시 올리는(아웃풋 프로젝션) 저차원 변환으로 구현된다. 지금까지가 '단일 헤드'이며, 실제로는 서로 다른 Q·K·V를 가진 여러 헤드를 병렬로 쓰는 멀티헤드 어텐션을 사용한다. GPT-3는 96개의 헤드를 쓰며, 어텐션이 부상한 배경에는 GPU 병렬 연산이 있다.
주요 인사이트
- 어텐션 핵심 직관: '플러피 블루 크리처' 예시처럼 형용사가 명사 임베딩을 해당 의미 방향으로 끌어당겨, 같은 단어라도 문맥에 맞는 의미를 갖게 된다.
- 쿼리·키 벡터는 임베딩보다 작은 차원(예: 128차원)으로 매핑되며, 내적이 클수록 강하게 주목한다. 수치 안정성을 위해 키 차원의 제곱근으로 나눈 뒤 소프트맥스를 적용한다.
- 마스킹은 한 문장으로 여러 학습 예시를 동시에 만들면서도 미래 단어를 미리 보지 못하게 하는 장치다. GPT 학습에서는 이 인과적 마스킹을 항상 사용한다.
- GPT-3는 96개의 어텐션 헤드를 사용하며, 어텐션 관련 파라미터는 약 580억 개로 전체 1,750억 개의 약 3분의 1을 차지한다. 셀프 어텐션과 달리 번역처럼 두 종류의 데이터를 다룰 때는 크로스 어텐션을 쓴다.
자주 묻는 질문
쿼리, 키, 밸류는 각각 무슨 역할인가요?
쿼리는 '나를 설명해 줄 단어가 뭐야?'라는 질문, 키는 그 질문에 답이 되는 후보, 밸류는 실제로 임베딩에 더해질 의미 정보입니다. 쿼리와 키의 내적으로 관련성을 재고 밸류로 의미를 전달합니다.
마스킹은 왜 필요한가요?
다음 단어를 예측하도록 학습할 때 뒤에 오는 정답 단어가 앞 단어에 영향을 주면 안 되기 때문입니다. 소프트맥스 적용 전에 해당 위치 값을 음의 무한대로 만들어 영향을 0으로 차단합니다.
멀티헤드 어텐션이 무엇인가요?
서로 다른 쿼리·키·밸류 행렬을 가진 어텐션을 여러 개 병렬로 수행하는 방식입니다. 각 헤드가 문맥의 서로 다른 측면을 포착하며, GPT-3는 96개의 헤드를 사용합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗