AI VIDEO BRIEFING

트랜스포머(Transformer) 구조 쉽게 이해하기: GPT·BERT를 움직이는 AI 신경망

GPT와 BERT 같은 최신 AI 모델의 토대인 트랜스포머를, RNN의 한계부터 위치 인코딩·어텐션·셀프어텐션이라는 세 가지 핵심 아이디어까지 비전문가의 눈높이로 풀어 설명한다.

GPT·BERT를 떠받치는 핵심 구조, 트랜스포머는 어떻게 언어를 이해하나 영상 대표 이미지

핵심 메시지

  • 트랜스포머는 2017년 구글과 토론토대 연구진이 번역을 위해 만든 신경망 구조로, GPT·BERT·T5 등 오늘날의 주요 언어 모델이 모두 이 구조를 바탕으로 한다.
  • 기존 RNN은 단어를 하나씩 순차적으로 처리해 긴 문장에서 앞부분을 잊고, 병렬화가 어려워 학습 속도가 느렸다.
  • 트랜스포머는 위치 인코딩, 어텐션, 셀프어텐션이라는 세 가지 혁신으로 이 한계를 넘어섰다.
  • 병렬 학습이 가능해진 덕분에 거의 전체 공개 웹 수준의 방대한 데이터로 거대 모델을 훈련할 수 있게 됐다.
  • 셀프어텐션은 주변 단어의 맥락을 보고 같은 단어의 다른 의미까지 구분해내며, 이것이 언어 이해 능력의 핵심이다.

쉽게 이해하기

머신러닝 분야에서는 몇 년마다 판도를 바꾸는 발명이 등장하는데, 영상은 지금 그 주인공이 트랜스포머라는 신경망 구조라고 소개한다. 트랜스포머는 번역, 시·사설 작성, 컴퓨터 코드 생성은 물론 생물학의 단백질 접힘 문제 해결까지 폭넓게 쓰이며, GPT-3·BERT·T5 같은 화제의 모델이 모두 여기에 기반한다.

트랜스포머 이전에는 언어를 다루는 딥러닝 모델로 주로 순환 신경망(RNN)을 썼다. RNN은 영어 문장을 단어 단위로 순서대로 읽어 프랑스어로 옮기는 식으로, 어순 정보를 처리할 수 있었다. 하지만 긴 문단을 다룰 때 앞 내용을 잊어버렸고, 순차 처리라는 특성 탓에 병렬화가 안 돼 GPU를 많이 붙여도 속도를 끌어올리기 어려웠다.

2017년 등장한 트랜스포머는 효율적인 병렬화가 가능해 적절한 하드웨어만 있으면 매우 큰 모델을 학습시킬 수 있었다. 영상은 GPT-3가 거의 전체 공개 웹을 포함한 약 45테라바이트의 텍스트로 학습됐다는 예를 들며, “확장이 잘 되는 모델과 거대한 데이터셋의 결합”이 트랜스포머의 위력을 설명하는 한 문장이라고 강조한다.

작동 원리는 세 가지 핵심으로 요약된다. 첫째 위치 인코딩은 단어를 순서대로 신경망에 넣는 대신, 각 단어에 순번을 붙여 어순 정보를 데이터 자체에 담는 방식이다. 둘째 어텐션은 출력 문장의 한 단어를 결정할 때 입력 문장의 모든 단어를 살펴보게 하는 구조로, 원 논문 제목이 “Attention Is All You Need”일 만큼 중심 개념이다.

셋째이자 진짜 혁신은 셀프어텐션이다. 영어-프랑스어처럼 두 문장을 정렬하는 대신, 입력 텍스트 자체에 어텐션을 적용해 단어의 의미를 맥락 속에서 파악한다. 예컨대 “server”가 식당 종업원인지 서버 컴퓨터인지는 주변 단어를 보고 구분하는데, 셀프어텐션이 바로 그 역할을 한다. 이런 구조 위에서 만들어진 BERT는 구글 검색의 질의 이해 등 다양한 자연어 처리 작업에 폭넓게 활용된다.

주요 인사이트

  • 트랜스포머의 본질은 “잘 확장되는 모델 구조 + 거대한 데이터”의 결합이며, 둘 중 하나만으로는 지금의 성능이 나오지 않는다.
  • 위치 인코딩은 어순 정보를 신경망 구조가 아니라 데이터 안에 넣는 발상의 전환으로, 학습을 한결 쉽게 만들었다.
  • 어텐션은 단어를 일대일로 옮기는 대신 문장 전체를 참고하게 해, 어순이 바뀌거나 성·수 일치가 필요한 번역에서 위력을 발휘한다.
  • 셀프어텐션 덕분에 모델은 같은 단어의 중의성 해소, 품사·시제 인식 등 언어의 내부 구조를 데이터로부터 스스로 학습한다.
  • BERT는 위키피디아·레딧 같은 라벨 없는 텍스트로도 좋은 모델을 만들 수 있음을 보여줬고, 이는 준지도 학습이라는 큰 흐름으로 이어졌다.

자주 묻는 질문

트랜스포머는 언제, 어디서 처음 만들어졌나요?

2017년 구글과 토론토대학교 연구진이 처음 개발했으며, 본래 목적은 기계 번역이었습니다.

기존 RNN과 비교해 트랜스포머의 가장 큰 장점은 무엇인가요?

RNN은 단어를 순차 처리해 병렬화가 어렵고 긴 문장에서 앞부분을 잊는 반면, 트랜스포머는 병렬 학습이 가능해 훨씬 큰 모델을 방대한 데이터로 학습시킬 수 있습니다.

셀프어텐션은 일반 어텐션과 무엇이 다른가요?

일반 어텐션이 두 언어의 단어를 정렬하는 데 쓰인다면, 셀프어텐션은 입력 텍스트 자체에 적용돼 한 단어를 주변 단어의 맥락 속에서 이해하게 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식