AI VIDEO BRIEFING

트랜스포머 구조 쉽게 이해하기: 어텐션과 셀프어텐션, 쿼리·키·값 작동 원리까지 단계별 정리

구글의 2017년 논문 "Attention is All You Need"가 제시한 트랜스포머 구조를 인코더·디코더 블록, 어텐션 층, 쿼리·키·값과 위치 정보까지 단계별로 아주 쉽게 풀어 정리했습니다.

출처: ByteByteGo2025년 12월 11일AI 보조 요약

트랜스포머 구조 완전 해부: "어텐션"이 어떻게 AI 지형을 바꿨나 영상 대표 이미지

핵심 메시지

트랜스포머는 2017년 구글의 논문 "Attention is All You Need"에서 제안된 신경망 구조로, 기존 RNN·LSTM의 한계를 풀며 AI 지형을 바꿨다.
핵심은 "어텐션" 층이다. 시퀀스 안의 모든 토큰이 서로 직접 정보를 주고받게 해, 멀리 떨어진 단어 사이의 맥락도 효율적으로 포착한다.
어텐션은 각 토큰을 쿼리·키·값으로 바꿔 연관도를 계산하고, 그 가중치로 값들을 합쳐 맥락이 반영된 새 표현을 만든다.
한 블록은 토큰들이 상호작용하는 어텐션 층과 각 토큰을 개별적으로 다듬는 MLP(피드포워드) 층으로 이뤄진다.
같은 구조가 번역·요약·생성은 물론 이미지·음성·코드까지 일반화되며, 인코더-디코더형과 GPT 같은 디코더 전용형으로 쓰인다.

쉽게 이해하기

영상은 머신러닝의 기본 목표인 "입력에서 출력으로의 매핑 학습"에서 출발한다. 집값 예측은 방 개수·위치·우편번호를 가격으로, 스팸 분류는 단어 시퀀스를 스팸 여부로 매핑하는 식이다. 신경망은 여러 층이 입력을 출력으로 변환하는 연쇄이며, 학습 과정에서 각 층의 파라미터가 갱신되어 정확한 매핑을 익힌다.

문제는 문장처럼 순서가 있는 데이터다. 각 토큰을 독립적으로 처리하면 맥락이 사라진다. 과거의 RNN·LSTM은 토큰을 하나씩 처리하며 내부 기억을 다음 단계로 넘기는 방식이었는데, 순차 처리라 병렬화가 안 돼 학습이 느렸고, 시퀀스가 길어지면 앞쪽 정보가 소실되는 장기 의존성 문제가 있었다.

트랜스포머는 어텐션 층을 추가해 이 두 문제를 동시에 해결한다. 어텐션은 신경망 내부에 놓인 "소통 계층"으로, 각 토큰이 다른 모든 토큰을 보고 무엇이 중요한지 스스로 판단한다. "Jake learned AI even though it was difficult"에서 "it"이 다른 단어를 살펴 "Jake"가 가장 관련 있다고 학습하는 식이다. 이어지는 MLP 층에서 각 토큰은 그 이해를 내부적으로 다듬는다. 잔차 연결과 층 정규화는 학습을 안정시키는 보조 장치다.

입력은 토크나이저가 토큰으로 쪼갠 뒤 의미를 담은 벡터(임베딩)로 바뀐다. 트랜스포머는 기본적으로 순서 감각이 없어 위치 정보를 임베딩에 더하는데, 이것이 없으면 "Jake learned AI"와 "AI learned Jake"를 구분하지 못한다. 단계마다 어텐션이 토큰 간 정보를 섞고 MLP가 각 토큰을 다듬으며, 최종적으로 맥락이 풍부해진 벡터 시퀀스가 남는다. 생성 작업에서는 마지막 표현으로 다음 단어를 예측하고, 감성 분석에서는 첫 벡터로 문장 전체를 대표해 분류기에 넣는다.

어텐션의 내부 동작은 쿼리("나는 무엇을 찾는가"), 키("나는 무엇을 가졌는가"), 값("실제로 공유할 내용")으로 이뤄진다. 토큰의 쿼리와 다른 토큰들의 키를 내적해 연관 점수를 구하고, 소프트맥스로 정규화해 어텐션 가중치를 만든 뒤 값들을 가중합한다. 논문은 이를 행렬 형태로 표현해 모든 토큰의 상호작용을 병렬 행렬 연산 한 번으로 처리하며, 효율적이고 완전히 미분 가능하다. 마스크드·멀티헤드·크로스 어텐션은 인과성 유지나 서로 다른 출처의 정보 결합 등을 위해 계산 방식을 변형한 것이다.

주요 인사이트

트랜스포머의 본질은 "마법"이 아니라 입력들이 서로 대화하게 만드는 통신 구조다. 어텐션을 소통 계층으로 이해하면 전체 그림이 쉽게 잡힌다.
RNN·LSTM의 두 약점(순차 처리로 인한 느린 학습, 장기 의존성 소실)을 어텐션의 병렬·전역 연결이 동시에 해소한다.
쿼리·키·값을 행렬로 묶어 한 번에 계산하는 설계 덕분에 병렬 처리가 가능하고 전 과정이 미분 가능해 학습에 적합하다.
학습 초기에는 파라미터가 무작위라 표현이 무의미하지만, 학습이 진행되며 동사가 주어를, 대명사가 관련 명사를 가리키는 식의 의미 있는 패턴을 익힌다.
데이터를 "상호작용이 필요한 요소들의 시퀀스"로 볼 수 있으면 언어를 넘어 이미지·음성·코드까지 같은 구조가 통한다.

자주 묻는 질문

트랜스포머는 어떤 논문에서 제안됐나요?

2017년 구글이 발표한 "Attention is All You Need" 논문에서 제안됐으며, 이후 거의 모든 옛 신경망 설계를 대체했습니다.

어텐션 층은 무슨 역할을 하나요?

시퀀스의 모든 토큰이 서로 직접 정보를 주고받게 하는 소통 계층으로, 각 토큰이 다른 토큰 중 무엇이 중요한지 판단해 맥락을 포착합니다.

쿼리·키·값은 각각 무엇을 의미하나요?

쿼리는 "무엇을 찾는가", 키는 "무엇을 가졌는가", 값은 "실제로 공유할 내용"을 담습니다. 쿼리와 키의 내적으로 연관도를 구하고 값을 가중합해 새 표현을 만듭니다.

위치 정보는 왜 더해 주나요?

트랜스포머는 기본적으로 순서 감각이 없어, 위치 정보를 임베딩에 더하지 않으면 "Jake learned AI"와 "AI learned Jake"를 구분하지 못하기 때문입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗