AI VIDEO BRIEFING

트랜스포머 신경망 원리: 어텐션 메커니즘과 인코더-디코더 구조 단계별 이해

'Attention is all you need'에서 시작된 트랜스포머의 작동 방식을 어텐션, 셀프 어텐션, 위치 인코딩, 인코더-디코더 흐름으로 단계별 정리한다.

출처: The AI Hacker2020년 4월 28일AI 보조 요약

트랜스포머는 어떻게 작동하나: 어텐션 메커니즘으로 본 인코더-디코더 구조 영상 대표 이미지

핵심 메시지

트랜스포머는 어텐션 메커니즘을 기반으로 한 인코더-디코더 신경망으로, 'Attention is all you need' 논문에서 시작됐다.
어텐션은 RNN·LSTM의 단기 기억 한계를 넘어, 이론상 무한한 참조 창으로 문맥 전체를 활용할 수 있게 해 준다.
셀프 어텐션은 쿼리·키·값 벡터의 내적과 소프트맥스로 각 단어가 다른 단어에 얼마나 주목할지 계산한다.
인코더는 입력을 추상적 표현으로 변환하고, 디코더는 마스킹으로 미래 단어를 가린 채 단어를 하나씩 자기회귀적으로 생성한다.

쉽게 이해하기

트랜스포머는 기계 번역, 대화형 챗봇, 검색 엔진 등 자연어 처리 전반에서 기록을 갈아치우며 최신 기술을 끌어올렸다. 그 핵심은 어텐션 메커니즘이다. 텍스트를 한 단어씩 생성할 때 모델은 생성 중인 단어와 관련된 단어들을 '참조(attend)'할 수 있는데, 어떤 단어에 주목할지는 역전파 학습으로 익힌다. RNN·LSTM도 이전 입력을 보지만 단기 기억 한계로 시퀀스가 길어지면 앞부분 단어를 참조하기 어려운 반면, 어텐션은 이론상 무한한 참조 창을 갖는다.

트랜스포머는 인코더-디코더 구조다. 인코더는 입력 시퀀스를 학습된 정보를 모두 담은 추상적·연속적 표현으로 변환하고, 디코더는 그 표현과 이전 출력을 받아 한 단계씩 출력을 생성한다. 입력은 먼저 단어 임베딩 층을 거쳐 각 단어가 벡터로 매핑되고, 트랜스포머에는 순환 구조가 없으므로 사인·코사인 함수로 만든 위치 인코딩 벡터를 임베딩에 더해 위치 정보를 주입한다.

인코더의 핵심은 셀프 어텐션을 적용하는 멀티헤드 어텐션 모듈이다. 입력을 서로 다른 세 개의 완전연결 층에 통과시켜 쿼리·키·값 벡터를 만들고, 쿼리와 키의 내적으로 점수 행렬을 구한 뒤 차원의 제곱근으로 나눠 안정화하고 소프트맥스를 취해 어텐션 가중치를 얻는다. 이 가중치를 값 벡터에 곱해 출력 벡터를 만든다. 쿼리·키·값을 여러 개로 쪼개 각각 셀프 어텐션을 수행하는 것을 멀티헤드라 하며, 각 헤드가 서로 다른 표현을 학습해 모델의 표현력을 키운다.

어텐션 출력은 원래 입력과 더해지는 잔차 연결을 거쳐 레이어 정규화되고, 이어 포인트와이즈 피드포워드 신경망(ReLU를 사이에 둔 선형 층들)을 통과한 뒤 다시 더해지고 정규화된다. 잔차 연결은 그래디언트가 직접 흐르게 해 학습을 돕고, 레이어 정규화는 학습을 안정화한다. 인코더 층은 여러 번 쌓아 각 층이 서로 다른 어텐션 표현을 학습하게 할 수 있다.

디코더는 텍스트 시퀀스를 생성하며, 두 개의 멀티헤드 어텐션 층과 피드포워드 층을 갖는다. 디코더는 자기회귀적이라 단어를 하나씩 만들기 때문에, 첫 번째 어텐션 층에서는 아직 생성되지 않은 미래 토큰을 보지 못하도록 룩어헤드 마스크(상삼각을 음의 무한대로 채워 소프트맥스 후 0이 되게 함)를 적용한다. 두 번째 어텐션 층에서는 인코더 출력을 키·값으로 삼아 입력의 어느 부분에 집중할지 정한다. 마지막에는 선형 층과 소프트맥스로 단어 확률을 구해 가장 높은 확률의 단어를 예측하고, 종료 토큰이 나올 때까지 이를 반복한다.

주요 인사이트

위치 정보는 사인·코사인 함수로 만든 벡터를 임베딩에 더해 주입한다. 두 함수는 선형적 성질이 있어 모델이 상대 위치를 학습하기 쉽다.
디코더는 자기회귀적이라 미래 토큰을 보지 못하도록 룩어헤드 마스크를 쓴다. 상삼각 영역을 음의 무한대로 채우면 소프트맥스 후 그 부분의 어텐션 점수가 0이 된다.
인코더·디코더를 여러 층 쌓으면 각 층과 각 헤드가 서로 다른 어텐션 조합을 학습해 예측력이 높아진다.
쿼리·키·값 개념은 검색 시스템에서 비롯됐다. 유튜브 검색처럼 쿼리를 제목·설명 같은 키에 매칭해 가장 잘 맞는 값을 찾는 방식과 같다.

자주 묻는 질문

트랜스포머가 RNN·LSTM보다 나은 이유는 무엇인가요?

RNN·LSTM은 단기 기억 한계로 시퀀스가 길어지면 앞부분에서 생성된 단어를 참조하기 어렵지만, 어텐션은 이론상 무한한 참조 창을 가져 이야기 전체의 문맥을 활용할 수 있다.

셀프 어텐션에서 쿼리·키·값 벡터는 어떻게 만들어지나요?

입력을 서로 다른 세 개의 완전연결 층에 통과시켜 각각 쿼리·키·값 벡터를 생성한다.

디코더에서 마스킹은 왜 필요한가요?

디코더가 단어를 순차적으로 생성하기 때문에 아직 만들어지지 않은 미래 단어를 미리 보지 못하도록, 소프트맥스 계산 전에 룩어헤드 마스크를 더해 미래 토큰의 어텐션 점수를 0으로 만든다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗