AI VIDEO BRIEFING

트랜스포머 모델이란: 어텐션·인코더·디코더로 이해하는 GPT의 작동 원리

GPT가 글을 쓰는 비결인 트랜스포머를 IBM이 쉽게 설명합니다. 인코더·디코더, 시퀀스 변환, 어텐션 메커니즘과 RNN과의 차이를 한국어로 정리했습니다.

출처: IBM Technology2022년 3월 11일AI 보조 요약

트랜스포머(Transformer)란? ChatGPT를 떠받치는 AI 모델과 '어텐션'의 원리 영상 대표 이미지

핵심 메시지

트랜스포머는 한 시퀀스를 다른 시퀀스로 '변환'하는 딥러닝 모델로, GPT-3 같은 생성형 사전학습 트랜스포머가 대표적인 예다.
트랜스포머는 입력을 처리하는 '인코더'와 목표 출력을 만드는 '디코더'로 구성되며, 토큰(단어) 시퀀스를 받아 다음 단어를 예측하는 시퀀스-투-시퀀스 학습으로 작동한다.
핵심은 '어텐션(attention) 메커니즘'으로, 입력의 각 단어가 서로 어떻게 연관되는지 맥락을 파악해 단순 단어 치환이 아닌 진짜 의미 기반 처리를 가능하게 한다.
순서대로 처리해야 하는 RNN과 달리 트랜스포머는 여러 시퀀스를 병렬로 처리할 수 있어 학습 속도가 크게 빨라진다.
번역뿐 아니라 문서 요약, 새 문서 생성, 나아가 체스 학습과 이미지 처리까지 폭넓게 적용되며, 어텐션의 병렬화 덕분에 계속 발전하고 있다.

쉽게 이해하기

영상은 컴퓨터가 만든 농담('바나나는 왜 길을 건넜을까? 으깨지는 게 지겨워서')으로 시작한다. 이 농담을 만든 것이 바로 GPT-3, 즉 생성형 사전학습 트랜스포머(Generative Pre-trained Transformer)의 3세대다. GPT-3는 사람이 쓴 것처럼 보이는 글을 만들어내는 자기회귀(auto-regressive) 언어 모델로, 시와 이메일은 물론 나름의 농담까지 만들어낸다.

GPT-3는 트랜스포머의 한 예일 뿐이다. 트랜스포머는 이름 그대로 하나의 시퀀스를 다른 시퀀스로 '변환'하는 모델이며, 언어 번역이 좋은 예다. 영어 문장을 프랑스어로 옮기는 일은 단순한 단어 찾기처럼 보이지만, 어순과 표현 방식이 달라 그렇게 단순하지 않다. 트랜스포머는 이를 시퀀스-투-시퀀스 학습으로 풀어, 단어 토큰의 시퀀스를 받아 출력 시퀀스의 다음 단어를 예측한다.

구조적으로 트랜스포머는 인코더와 디코더로 나뉜다. 인코더는 입력 시퀀스를 처리해 어떤 부분이 서로 관련 있는지를 정의하는 인코딩을 생성하고, 이를 다음 인코더 층으로 넘긴다. 디코더는 이 인코딩들이 담은 맥락을 활용해 출력 시퀀스를 만들어낸다. 또한 트랜스포머는 대량의 라벨 없는 데이터로 비지도 사전학습을 한 뒤 지도 학습으로 미세조정하는 준지도(semi-supervised) 방식으로 성능을 끌어올린다.

트랜스포머가 RNN(순환 신경망) 같은 기존 모델과 다른 결정적 지점은 '어텐션 메커니즘'이다. 문장을 무조건 앞 단어부터 순서대로 처리하는 대신, 트랜스포머는 시퀀스 안 각 단어에 의미를 부여하는 맥락을 찾아낸다. 덕분에 번역을 반드시 첫 단어부터 시작할 필요가 없다. 순서대로 실행해야 하는 RNN과 달리 트랜스포머는 여러 시퀀스를 병렬로 돌릴 수 있어 학습 시간이 크게 단축된다.

활용 범위는 번역을 넘어선다. 긴 기사를 입력하면 핵심을 몇 문장으로 요약해주고, 블로그 글처럼 완전히 새로운 문서를 만들어내기도 한다. 언어를 넘어 체스를 두는 법을 배우거나, 합성곱 신경망(CNN)에 견줄 만한 이미지 처리까지 해낸다. 영상은 어텐션 메커니즘을 병렬화할 수 있는 덕분에 트랜스포머가 강력하고도 계속 좋아지는 모델이라고 정리한다.

주요 인사이트

'트랜스포머 = 시퀀스 변환기'라는 정의가 본질이다. 번역이든 요약이든, 하나의 입력 시퀀스를 의미를 보존한 다른 출력 시퀀스로 바꾸는 것이 이 모델의 공통 작동 원리다.
어텐션 메커니즘이 트랜스포머의 진짜 도약점이다. 단어를 위치 순서가 아니라 서로의 맥락으로 이해하기 때문에, 어순이 뒤바뀌는 언어 간 번역에서도 의미를 제대로 잡아낸다.
병렬 처리 가능성이 실용적 우위를 만든다. 순차적으로만 돌아가는 RNN과 달리 트랜스포머는 여러 시퀀스를 동시에 처리해 학습 속도를 크게 끌어올린다.
준지도 학습 구조가 강력함의 비결이다. 방대한 라벨 없는 데이터로 먼저 비지도 사전학습을 하고, 이후 지도 학습으로 미세조정해 특정 작업의 성능을 높인다.
트랜스포머는 언어 모델에 국한되지 않는다. 문서 생성, 체스, 그리고 CNN에 필적하는 이미지 처리까지 영역을 넓히며 범용 딥러닝 모델로 자리 잡고 있다.

자주 묻는 질문

트랜스포머란 무엇인가요?

하나의 시퀀스를 다른 시퀀스로 '변환'하는 딥러닝 모델입니다. 입력을 처리하는 인코더와 출력을 만드는 디코더로 구성되며, 단어 토큰 시퀀스를 받아 다음 단어를 예측하는 방식으로 번역·요약·문서 생성 등을 수행합니다. GPT-3가 대표적인 예입니다.

어텐션 메커니즘이 왜 중요한가요?

어텐션은 입력 시퀀스 안의 각 단어가 서로 어떻게 연관되는지 맥락을 파악하게 해줍니다. 덕분에 단어를 무조건 앞에서부터 순서대로 처리하지 않고도 의미를 잡아내며, 어순이 다른 언어 간 번역도 자연스럽게 처리할 수 있습니다.

트랜스포머는 RNN과 어떻게 다른가요?

RNN은 데이터를 순서대로 처리해야 하지만, 트랜스포머는 어텐션 메커니즘을 통해 여러 시퀀스를 병렬로 처리할 수 있습니다. 이 병렬성 덕분에 학습 시간이 크게 단축되어 RNN보다 큰 우위를 가집니다.

트랜스포머는 번역 말고 어디에 쓰이나요?

긴 글을 몇 문장으로 줄이는 문서 요약, 블로그 글 같은 새로운 문서 생성에 쓰입니다. 또 언어를 넘어 체스를 배우거나, 합성곱 신경망(CNN)에 견줄 만한 이미지 처리까지 수행할 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗