AI VIDEO BRIEFING

트랜스포머 아키텍처 완벽 정리 — 어텐션·인코더·디코더 작동 원리

2017년 ‘Attention Is All You Need’으로 등장한 트랜스포머를 번역 예시로 풀어낸다. 토큰 임베딩, 포지셔널 인코딩, 멀티헤드 어텐션, 인코더·디코더 구조와 학습·추론 과정을 단계별로 정리했다.

출처: Under The Hood2025년 11월 17일AI 보조 요약

트랜스포머 구조 완전 해부: 인코더·디코더부터 멀티헤드 어텐션까지 영상 대표 이미지

핵심 메시지

트랜스포머는 2017년 논문 ‘Attention Is All You Need’에서 제안된 구조로, 오늘날 대부분의 최신 AI 모델의 기반이 되었다.
핵심은 어텐션 메커니즘이다. 단어의 의미만 담은 정적 임베딩을 문맥에 맞는 표현으로 바꿔, 같은 단어라도 주변 맥락에 따라 다르게 해석하게 만든다.
인코더는 입력 문장을 문맥 표현으로 압축하고, 디코더는 그 표현을 참고하며 출력 문장을 한 토큰씩 생성한다.
학습은 정답 문장 전체를 한 번에 비교해 진행하지만, 추론은 토큰을 하나씩 만들어 가는 자기회귀(auto-regressive) 방식으로 동작한다.

쉽게 이해하기

트랜스포머는 인코더와 디코더로 이루어진 시퀀스-투-시퀀스 구조다. 기존 LSTM 기반 모델과 달리 병렬 처리가 가능하고, 멀리 떨어진 단어 사이의 관계(장거리 의존성)를 더 잘 잡아내 빠르고 정확하다. 영상은 한 언어를 다른 언어로 번역하는 과제를 예로 들어 각 구성 요소를 차례로 설명한다.

입력 문장은 먼저 토큰화를 거쳐 숫자로 바뀌고, 임베딩 층에서 각 토큰이 고차원 벡터로 변환된다. 이 벡터는 단어의 의미를 담지만 순서 정보는 없기 때문에, 사인·코사인 함수로 만든 포지셔널 인코딩 벡터를 더해 단어의 위치까지 표현한다.

인코더의 핵심인 멀티헤드 어텐션은 각 토큰을 쿼리·키·밸류 세 가지로 변환한 뒤, 쿼리와 키를 곱하고 스케일링·소프트맥스를 거쳐 어텐션 가중치를 구한다. 이 가중치로 밸류를 가중합하면 문맥이 반영된 새 표현이 만들어진다. 여러 개의 어텐션 헤드를 병렬로 쓰고 그 결과를 이어 붙여 표현력을 높인다.

어텐션 뒤에는 잔차 연결(residual)과 층 정규화, 피드포워드 신경망이 이어진다. 이런 인코더 블록을 여러 번 반복해 입력 표현을 점점 정교하게 다듬고, 최종 출력이 디코더가 참고할 문맥이 된다.

디코더는 마스크드 멀티헤드 어텐션으로 미래 토큰을 보지 못하게 막고, 크로스 어텐션으로 인코더의 문맥(키·밸류)과 디코더의 쿼리를 결합한다. 마지막 선형 층과 소프트맥스가 다음 토큰의 확률 분포를 내놓는다. 추론 때는 시작 토큰부터 출발해 종료 토큰이 나올 때까지 한 토큰씩 생성한다.

주요 인사이트

어텐션의 본질은 ‘단어 의미만 담은 정적 벡터’를 ‘문맥을 반영한 동적 벡터’로 바꾸는 변환이다. 같은 ‘bank’라도 deposited·money 같은 주변 단어를 보고 강·둑이 아닌 은행으로 해석하게 된다.
멀티헤드는 하나의 큰 어텐션을 여러 개의 저차원 어텐션으로 쪼개 병렬 계산한 뒤 이어 붙이는 방식이다. 512차원 출력을 원하면 8개 헤드를 각 64차원으로 두는 식으로 구성한다.
디코더의 마스킹은 마스크 행렬에 음의 무한대를 넣어 소프트맥스에서 0 확률로 만드는 트릭이다. 이렇게 해야 학습 때 각 토큰이 ‘아직 보면 안 되는’ 미래 정답을 미리 보지 않는다.
GPT 같은 텍스트 생성 모델은 인코더 없이 디코더만 쓰는 구조이며, 추론 시 토큰을 하나씩 이어 붙이는 자기회귀 특성을 그대로 활용한다.

자주 묻는 질문

트랜스포머는 언제, 어떤 논문에서 처음 제안되었나?

2017년 발표된 논문 ‘Attention Is All You Need’에서 처음 제안되었다. 이후 현대 AI 모델 대부분의 기반 구조가 되었다.

포지셔널 인코딩은 왜 필요한가?

임베딩 벡터는 단어의 의미만 담을 뿐 순서 정보가 없다. 그래서 사인·코사인 함수로 만든 위치 벡터를 임베딩에 더해 어떤 단어가 몇 번째인지 알려준다. 원 논문에서는 학습되지 않는 고정 값을 사용했다.

학습과 추론의 동작 방식은 어떻게 다른가?

학습 때는 정답 문장 전체를 디코더 입력으로 넣어 한 번에 확률을 구하고 손실을 계산한다. 추론 때는 정답이 없으므로 시작 토큰부터 출발해 종료 토큰이 나올 때까지 한 토큰씩 생성하는 자기회귀 방식으로 동작한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗