AI VIDEO BRIEFING

트랜스포머(Transformer) 구조 쉽게 이해하기: GPT·BERT를 움직이는 AI 신경망

GPT와 BERT 같은 최신 AI 모델의 토대인 트랜스포머를, RNN의 한계부터 위치 인코딩·어텐션·셀프어텐션이라는 세 가지 핵심 아이디어까지 비전문가의 눈높이로 풀어 설명한다.

출처: Google Cloud Tech2021년 8월 18일AI 보조 요약

GPT·BERT를 떠받치는 핵심 구조, 트랜스포머는 어떻게 언어를 이해하나 영상 대표 이미지

핵심 메시지

트랜스포머는 2017년 구글과 토론토대 연구진이 번역을 위해 만든 신경망 구조로, GPT·BERT·T5 등 오늘날의 주요 언어 모델이 모두 이 구조를 바탕으로 한다.
기존 RNN은 단어를 하나씩 순차적으로 처리해 긴 문장에서 앞부분을 잊고, 병렬화가 어려워 학습 속도가 느렸다.
트랜스포머는 위치 인코딩, 어텐션, 셀프어텐션이라는 세 가지 혁신으로 이 한계를 넘어섰다.
병렬 학습이 가능해진 덕분에 거의 전체 공개 웹 수준의 방대한 데이터로 거대 모델을 훈련할 수 있게 됐다.
셀프어텐션은 주변 단어의 맥락을 보고 같은 단어의 다른 의미까지 구분해내며, 이것이 언어 이해 능력의 핵심이다.

쉽게 이해하기

머신러닝 분야에서는 몇 년마다 판도를 바꾸는 발명이 등장하는데, 영상은 지금 그 주인공이 트랜스포머라는 신경망 구조라고 소개한다. 트랜스포머는 번역, 시·사설 작성, 컴퓨터 코드 생성은 물론 생물학의 단백질 접힘 문제 해결까지 폭넓게 쓰이며, GPT-3·BERT·T5 같은 화제의 모델이 모두 여기에 기반한다.

트랜스포머 이전에는 언어를 다루는 딥러닝 모델로 주로 순환 신경망(RNN)을 썼다. RNN은 영어 문장을 단어 단위로 순서대로 읽어 프랑스어로 옮기는 식으로, 어순 정보를 처리할 수 있었다. 하지만 긴 문단을 다룰 때 앞 내용을 잊어버렸고, 순차 처리라는 특성 탓에 병렬화가 안 돼 GPU를 많이 붙여도 속도를 끌어올리기 어려웠다.

2017년 등장한 트랜스포머는 효율적인 병렬화가 가능해 적절한 하드웨어만 있으면 매우 큰 모델을 학습시킬 수 있었다. 영상은 GPT-3가 거의 전체 공개 웹을 포함한 약 45테라바이트의 텍스트로 학습됐다는 예를 들며, “확장이 잘 되는 모델과 거대한 데이터셋의 결합”이 트랜스포머의 위력을 설명하는 한 문장이라고 강조한다.

작동 원리는 세 가지 핵심으로 요약된다. 첫째 위치 인코딩은 단어를 순서대로 신경망에 넣는 대신, 각 단어에 순번을 붙여 어순 정보를 데이터 자체에 담는 방식이다. 둘째 어텐션은 출력 문장의 한 단어를 결정할 때 입력 문장의 모든 단어를 살펴보게 하는 구조로, 원 논문 제목이 “Attention Is All You Need”일 만큼 중심 개념이다.

셋째이자 진짜 혁신은 셀프어텐션이다. 영어-프랑스어처럼 두 문장을 정렬하는 대신, 입력 텍스트 자체에 어텐션을 적용해 단어의 의미를 맥락 속에서 파악한다. 예컨대 “server”가 식당 종업원인지 서버 컴퓨터인지는 주변 단어를 보고 구분하는데, 셀프어텐션이 바로 그 역할을 한다. 이런 구조 위에서 만들어진 BERT는 구글 검색의 질의 이해 등 다양한 자연어 처리 작업에 폭넓게 활용된다.

주요 인사이트

트랜스포머의 본질은 “잘 확장되는 모델 구조 + 거대한 데이터”의 결합이며, 둘 중 하나만으로는 지금의 성능이 나오지 않는다.
위치 인코딩은 어순 정보를 신경망 구조가 아니라 데이터 안에 넣는 발상의 전환으로, 학습을 한결 쉽게 만들었다.
어텐션은 단어를 일대일로 옮기는 대신 문장 전체를 참고하게 해, 어순이 바뀌거나 성·수 일치가 필요한 번역에서 위력을 발휘한다.
셀프어텐션 덕분에 모델은 같은 단어의 중의성 해소, 품사·시제 인식 등 언어의 내부 구조를 데이터로부터 스스로 학습한다.
BERT는 위키피디아·레딧 같은 라벨 없는 텍스트로도 좋은 모델을 만들 수 있음을 보여줬고, 이는 준지도 학습이라는 큰 흐름으로 이어졌다.

자주 묻는 질문

트랜스포머는 언제, 어디서 처음 만들어졌나요?

2017년 구글과 토론토대학교 연구진이 처음 개발했으며, 본래 목적은 기계 번역이었습니다.

기존 RNN과 비교해 트랜스포머의 가장 큰 장점은 무엇인가요?

RNN은 단어를 순차 처리해 병렬화가 어렵고 긴 문장에서 앞부분을 잊는 반면, 트랜스포머는 병렬 학습이 가능해 훨씬 큰 모델을 방대한 데이터로 학습시킬 수 있습니다.

셀프어텐션은 일반 어텐션과 무엇이 다른가요?

일반 어텐션이 두 언어의 단어를 정렬하는 데 쓰인다면, 셀프어텐션은 입력 텍스트 자체에 적용돼 한 단어를 주변 단어의 맥락 속에서 이해하게 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗