AI VIDEO BRIEFING

AI 역사 핵심 논문 10편 정리: 튜링·섀넌에서 트랜스포머·GPT-3까지의 컴퓨터과학

앨런 튜링의 튜링 머신과 클로드 섀넌의 비트에서 시작해 퍼셉트론, 역전파, 페이지랭크, 이미지넷, 트랜스포머, GPT-3까지 — 100년 컴퓨터과학 논문 10편으로 오늘날 AI가 어떻게 만들어졌는지 짚어본다.

100년 컴퓨터과학 논문 10편으로 읽는 AI의 역사 영상 대표 이미지

핵심 메시지

  • 앨런 튜링은 1936년 '계산 가능한 수' 논문에서 모든 수학 문제를 푸는 보편 알고리즘은 없음을 증명하려다, 그 과정에서 튜링 머신이라는 컴퓨터의 추상적 청사진을 만들어냈다.
  • 클로드 섀넌은 1948년 정보를 '비트'라는 측정 가능한 단위로 환원하고, 사람에게 다음 글자를 맞히게 해 엔트로피를 추정했는데 이는 오늘날 AI의 다음 토큰 예측과 본질적으로 같다.
  • 퍼셉트론에서 역전파, 이미지넷(AlexNet), 트랜스포머를 거쳐 GPT-3에 이르는 흐름이 지금의 AI 붐을 만든 100년에 걸친 연쇄 반응이었다.
  • 구글은 트랜스포머 구조를 무료로 공개했고, 그 'T'가 곧 ChatGPT의 트랜스포머가 되었다.
  • OpenAI는 GPT-3에서 모델을 1,750억 개 파라미터로 키우고 인터넷 전체를 학습시켜, 지능이 특정 알고리즘이 아니라 규모가 임계점을 넘으면 창발한다는 데 베팅했다.

쉽게 이해하기

이 영상은 지난 100년 컴퓨터과학에서 가장 중요한 논문 10편을 골라 AI가 어떻게 지금에 이르렀는지 추적한다. 출발점은 1936년 앨런 튜링이다. 그는 수학자 다비트 힐베르트가 던진 '결정 문제'(모든 수학 명제의 참·거짓을 판정하는 보편 알고리즘이 있는가)에 '없다'고 답하기 위해, 먼저 알고리즘이 무엇인지부터 정의해야 했다. 그렇게 무한 테이프와 읽기·쓰기 헤드, 규칙표를 가진 가상의 튜링 머신을 상상해냈고, 이는 우리가 쓰는 모든 컴퓨터의 추상적 청사진이 되었다.

튜링은 이어 정지 문제, 즉 어떤 프로그램이 끝날지 아니면 무한히 반복될지를 판정하는 프로그램을 만들 수 있는지 물었고, 그런 프로그램은 논리적 모순을 낳아 존재할 수 없음을 증명했다. 12년 뒤인 1948년 클로드 섀넌은 '통신의 수학적 이론'에서 정보를 의미와 분리해 측정 가능한 양으로 다뤘다. '사랑해'와 '고양이에 불이 났다'도 똑같이 놀랍다면 같은 정보량을 가진다고 보고, 그 놀라움을 비트로 측정했다.

섀넌은 모든 정보가 0과 1의 흐름으로 환원된다는 것을 증명했고, 정보량을 가늠하기 위해 열역학에서 '엔트로피'라는 말을 빌려왔다. 사람에게 문장의 다음 글자를 맞히게 해 엔트로피를 쟀는데, 다음 토큰을 예측하는 이 방식은 오늘날 AI가 하는 일과 정확히 같다. 앤트로픽이 자사 모델 이름을 'Claude'로 지은 것도 이 때문이다. 다시 10년 뒤, 코넬대학교의 한 심리학자가 뇌의 뉴런에서 영감을 받아 입력에 가중치를 주고 틀릴 때마다 가중치를 조정하는 퍼셉트론을 만들었다.

퍼셉트론은 현대 신경망의 기본 단위였지만, 11년 뒤 MIT 연구자들이 단층 퍼셉트론은 XOR(둘 중 하나만 참인 논리)조차 학습하지 못함을 수학적으로 증명하면서 자금이 끊기고 첫 'AI 겨울'이 찾아왔다. 다만 그들은 퍼셉트론을 여러 층으로 쌓으면 문제가 해결된다는 사실도 함께 남겼는데, 당시엔 다층을 학습시키는 방법을 아무도 몰랐다. 그 답은 17년 뒤 제프리 힌턴을 포함한 세 연구자가 제시한 역전파였다. 데이터를 앞으로 흘려 오차를 측정하고, 미적분의 연쇄법칙으로 그 오차를 뒤로 전파해 각 가중치를 덜 틀리는 방향으로 조금씩 조정하는 방식이다.

역전파를 수백만 번 반복하면 신경망은 스스로 학습하고, 중간 은닉층은 가장자리·형태·개념 같은 특징을 스스로 만들어냈다. 한편 레슬리 램포트의 '분산 시스템에서의 시간, 클록, 사건 순서' 논문은 공통 시계 없이도 인과관계('happen-before')로 사건의 순서를 매기는 논리적 시계를 제시해, 수천 개의 GPU가 동기화 상태를 유지해야 하는 대규모 AI 학습의 토대가 되었다. 1998년 래리 페이지와 세르게이 브린은 링크를 '투표'로, 신뢰도 높은 페이지의 투표에 더 큰 가중치를 주는 페이지랭크로 구글을 만들었고, 이는 역사상 가장 큰 정형 텍스트 더미를 모아 훗날 AI의 학습 데이터가 됐다. 2012년 AlexNet(크리젭스키·수츠케버·힌턴)은 수백만 장의 라벨 이미지(이미지넷)와 소비자용 GPU로 깊은 합성곱 신경망을 학습시켜 오차율을 한 해에 10%포인트 낮추며 딥러닝의 가능성을 입증했고, 이후 구글의 '어텐션이 전부다'가 모든 단어가 동시에 서로를 참조하는 트랜스포머를 내놓았다. 2020년 OpenAI의 '언어 모델은 소수 샷 학습자다'는 이를 1,750억 파라미터로 키워 GPT-3를 낳았고, 결국 ChatGPT가 하는 일도 1948년 섀넌처럼 다음 단어를 예측하는 것이다.

주요 인사이트

  • 튜링은 '한계를 증명하려다' 컴퓨터를 발명했다 — 무엇이 불가능한지 엄밀히 정의하는 과정이 곧 계산이라는 개념을 낳았다.
  • 오늘날 거대 언어모델의 '다음 토큰 예측'은 1948년 섀넌이 사람에게 다음 글자를 맞히게 한 실험과 본질적으로 같은 아이디어다.
  • AI의 도약은 단일 천재의 알고리즘이 아니라 데이터·연산·구조가 동시에 갖춰졌을 때 일어났다 — 역전파도 딥러닝도 데이터와 연산이 부족하던 시기엔 빛을 보지 못했다.
  • 구글이 트랜스포머를 무료로 공개한 것이 모든 AI 연구실의 표준이 됐고, OpenAI는 '그냥 거대하게 키우면?'이라는 단순한 베팅으로 GPT-3와 현재의 AI 붐을 촉발했다.
  • 분산 시스템의 논리적 시계(램포트)는 데이터베이스·블록체인뿐 아니라 수천 개 GPU의 대규모 AI 학습이 무너지지 않게 붙잡아 주는 숨은 토대다.

자주 묻는 질문

영상이 꼽은 컴퓨터과학 논문은 몇 편이고 어떤 흐름인가?

총 10편으로, 튜링의 '계산 가능한 수'(1936), 섀넌의 '통신의 수학적 이론'(1948), 퍼셉트론, 단층 퍼셉트론의 한계, 램포트의 분산 시스템 논문, 역전파, 구글 검색의 페이지랭크(1998), 이미지넷·AlexNet(2012), 트랜스포머('어텐션이 전부다'), OpenAI의 GPT-3(2020)로 이어진다.

앤트로픽의 모델 이름이 'Claude'인 이유는?

영상에 따르면, 정보를 비트로 환원하고 다음 글자 예측으로 엔트로피를 측정해 오늘날 AI 예측의 수학적 토대를 놓은 클로드 섀넌에서 따온 이름이다.

GPT-3는 무엇이 특별했나?

OpenAI가 트랜스포머를 1,750억 개 파라미터로 키우고 인터넷 전체를 학습시킨 모델로, 따로 배우지 않고도 번역·요약·코딩을 일반화해 수행하며 지금의 AI 붐을 촉발했다.

'첫 AI 겨울'은 왜 왔나?

MIT 연구자들이 단층 퍼셉트론은 XOR 같은 단순 논리조차 학습할 수 없음을 증명하면서 자금이 말라붙었고, 다층 신경망을 학습시키는 방법을 몰라 연구가 한동안 침체됐다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식