AI VIDEO BRIEFING
트랜스포머가 AI 최고의 아이디어인 이유: 카파시가 말하는 범용 미분 컴퓨터 아키텍처
안드레이 카파시가 렉스 프리드먼과의 대화에서 트랜스포머를 표현력과 최적화, 하드웨어 효율을 동시에 갖춘 범용 미분 컴퓨터라 부른 이유와, 잔차 연결이 학습에 주는 이점, 놀랍도록 견고한 구조를 정리했다.

핵심 메시지
쉽게 이해하기
이 대화에서 카파시는 지난 몇 년간 AI가 폭발적으로 성장하며 만난 가장 인상적인 아이디어로 트랜스포머 아키텍처를 든다. 예전에는 시각·청각·텍스트 같은 감각 양식마다 서로 다른 신경망을 썼지만, 이제는 트랜스포머 하나가 영상이든 이미지든 음성이든 텍스트든 모두 삼켜 처리하는 범용적이고 학습 가능한 구조로 수렴했다는 것이다.
그는 '어텐션 이즈 올 유 니드'라는 논문 제목을 되짚으며, 저자들이 그 파급력을 다 예견하지는 못했겠지만 이 구조가 단순한 번역기가 아니라 미분 가능하고 최적화할 수 있는 효율적 컴퓨터라는 동기는 알고 있었을 것이라고 말한다. 밈처럼 가벼운 제목이 오히려 과한 약속을 피해 더 큰 영향을 남겼다는 농담도 나눈다.
카파시는 트랜스포머를 범용 미분 컴퓨터라 부르며 세 가지 설계 기준을 강조한다. 노드들이 각자 벡터를 저장하고 서로를 살펴 '나는 이런 걸 찾는다', '나는 이런 걸 가지고 있다'는 식으로 키와 값을 주고받는 메시지 전달 구조라, 순전파에서 매우 다양한 알고리즘을 표현할 수 있다.
동시에 잔차 연결, 층 정규화, 소프트맥스 어텐션 같은 요소 덕분에 역전파와 경사하강 같은 단순한 1차 최적화 기법으로도 학습이 잘 된다. 또한 순차 연산을 줄이고 병렬 연산을 많이 하도록 설계돼 GPU 같은 고처리량 하드웨어에 잘 맞는다.
그는 잔차 경로가 기울기를 첫 층까지 그대로 흘려보내, 트랜스포머가 마치 20줄짜리 파이썬 함수처럼 첫 줄부터 차례로 짧은 알고리즘을 학습하고 이후 층들이 기여를 더해 가는 방식으로 최적화된다고 설명한다. 2016년 구조가 층 정규화를 프리노름으로 재배치한 정도만 빼면 지금과 거의 같을 만큼 견고하다며, 지금의 화두는 '트랜스포머는 건드리지 말고 나머지를 키워라'라고 정리한다.
주요 인사이트
- 여러 감각 양식마다 다르던 신경망이 트랜스포머 하나로 수렴한 것은 AI 역사에서 흥미로운 통합 사례다.
- 트랜스포머의 강점은 어텐션 하나가 아니라 잔차 연결, 다층 퍼셉트론, 층 정규화, 쌓는 방식 등 여러 구조적 요소가 함께 작동하는 데 있다.
- 표현력·최적화 용이성·하드웨어 효율이라는, 흔히 상충하는 조건들을 동시에 만족시킨 점이 트랜스포머 성공의 핵심이다.
- 잔차 연결은 기울기를 모든 분기에 고르게 나눠 흘려보내 학습 초기 짧은 알고리즘부터 안정적으로 익히도록 돕는다.
- 최근 5년의 AI 발전은 아키텍처를 거의 그대로 둔 채 데이터셋과 평가 규모를 키우는 방향으로 이뤄졌다.
자주 묻는 질문
카파시가 트랜스포머를 '범용 미분 컴퓨터'라 부르는 이유는?
임의의 문제로 학습시킬 수 있고, 순전파에서 다양한 계산을 표현하며, 역전파로 최적화가 가능하고, 하드웨어에서 효율적으로 실행되는 성질을 한 구조가 동시에 갖췄기 때문이다.
트랜스포머의 힘은 어텐션 하나에서만 나오나?
아니다. 카파시는 트랜스포머가 어텐션보다 훨씬 많은 것으로 이뤄져 있다고 강조한다. 잔차 연결, 다층 퍼셉트론, 층 정규화, 그리고 이들을 쌓는 방식이 함께 작동해 성능을 낸다.
트랜스포머는 앞으로도 계속 바뀌지 않을까?
카파시는 2016년 구조가 프리노름 재배치 정도만 빼면 지금과 거의 같을 만큼 견고하다고 본다. 더 나은 구조가 나올 여지는 있지만, 현재 흐름은 구조는 그대로 두고 데이터와 평가를 키우는 쪽이다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗