AI VIDEO BRIEFING

알파고 10주년 회고: 이세돌과의 대국, 37수, 알파제로에서 알파폴드까지의 AI 혁명

2016년 서울에서 알파고가 이세돌을 4-1로 꺾은 지 10년. 딥마인드 과학자들이 37수의 의미, 알파제로의 무(無)에서의 학습, 그리고 단백질 접힘·행렬 곱셈으로 이어진 과학적 확장을 돌아본다.

알파고 10년: '37수'가 연 인간 너머의 AI, 그리고 과학으로의 확장 영상 대표 이미지

핵심 메시지

  • 2016년 서울에서 알파고가 18회 세계챔피언 이세돌을 4-1로 꺾으며 현대 AI 혁명의 전환점을 만들었다.
  • 알파고는 직관(정책·가치 신경망의 '빠른 사고')과 계산(게임 트리 탐색의 '느린 사고')을 결합한 구조였다.
  • 2국의 '37수'는 인간이 둘 확률 1만분의 1로 평가됐고, 처음엔 실수처럼 보였지만 인간 지식을 넘어선 새 수였다.
  • 인간 기보를 모두 제거한 알파제로는 스스로 학습해 인간 지식을 재발견한 뒤 더 나은 수를 찾아 폐기했다.
  • 같은 '탐색 문제 풀이' 방법론이 단백질 접힘(알파폴드), 행렬 곱셈(알파텐서), 알고리즘 탐색(알파에볼브)으로 확장됐다.

쉽게 이해하기

2016년 3월 서울의 한 호텔에서 18회 세계챔피언 이세돌과 신경망 기반 AI 알파고가 바둑을 뒀다. 7일에 걸친 대국 끝에 최종 스코어는 알파고의 4-1 승. 진행자 해나 프라이는 현대 AI 혁명이 사실상 그 바둑판 위에서 시작됐다고 짚으며, 당시 서울 현장에 있었던 딥마인드 수석 연구원 토비 그레펠과 딥마인드 과학 부문을 이끄는 푸시미트 콜리를 초대해 10년을 돌아본다.

바둑이 AI의 마지막 도전으로 여겨진 이유는 규칙은 단순하지만 수 싸움의 복잡도가 체스보다 수십 자릿수 더 크기 때문이다. 그레펠은 알파고가 인간이 두는 방식과 닮은 '빠른 사고와 느린 사고'의 결합이었다고 설명한다. 어떤 국면이 흑·백 누구에게 유리한지 한눈에 평가하는 가치망과, 프로 기사가 둘 법한 수를 추려내는 정책망이 딥러닝으로 구현돼 직관(빠른 사고)을 담당하고, 딥블루식 게임 트리 탐색이 계산(느린 사고)을 맡았다. 입사 첫날 알파고의 초기 버전에 진 그레펠은 '공식적으로 알파고에 처음 패배한 사람'이 됐고, 유럽 챔피언 판 후이와의 시험 대국에서 알파고가 10-0으로 이기며 팀은 자신감을 얻었다.

대국의 상징은 2국의 '37수'였다. 해설자들은 거의 만장일치로 '어떤 인간도 두지 않을 수'라 했고, 알파고 자신도 인간이 둘 확률을 1만분의 1로 봤다. 보통 다섯 번째 줄에 두면 상대에게 너무 많은 실리를 내준다고 여겨 인간은 피하지만, 알파고는 그것이 여전히 이득이 된다고 판단했다. 처음엔 환각이나 실수로 여겨졌지만 후반에 그 한 수가 승부의 전환점임이 드러났다. 반대로 4국에서는 이세돌이 둔 '78수'(신의 한 수)가 알파고를 혼란에 빠뜨려 유일한 1패를 안겼다. 그레펠은 인류를 대표해 마지막으로 기계를 이긴 그 순간에 깊은 존경을 표한다.

더 큰 과학적 도약은 인간 데이터를 모두 걷어낸 알파제로였다. 규칙만 주고 무작위 대국에서 출발한 시스템은 스스로 경험을 쌓아 인간의 정석을 재발견한 뒤, 더 나은 길을 찾으면 그 인간식 수를 미련 없이 버렸다. 콜리는 이 '훈련 분포를 넘어서는' 능력이 바둑을 넘어 과학으로 이어졌다고 말한다. 1969년 슈트라센 이후 50년간 멈춰 있던 행렬 곱셈을 게임으로 바꿔 더 빠른 알고리즘을 찾은 알파텐서, 가능한 프로그램 공간을 탐색하는 알파에볼브, 검증 가능한 수학 증명을 내놓는 알파프루프, 그리고 단백질 구조를 예측한 알파폴드가 그 계보다. 다만 LLM이 인간 데이터라는 '지름길'로 지능에 도달한 뒤, 이제 다시 강화학습으로 인간 지식 너머로 나아가는 국면이며, 새 통찰과 환각을 가려내는 검증기(verifier)와 해석 가능성이 핵심 과제로 남는다.

주요 인사이트

  • 알파고의 본질은 무차별 계산이 아니라 직관(신경망)과 계산(트리 탐색)을 결합해 인간의 사고 방식을 닮은 데 있었다.
  • '37수'는 AI가 인간 지식을 확장하는 통찰을 내놓을 수 있음을, 그것이 처음엔 실수처럼 보일 수 있음을 동시에 보여준 사건이다.
  • 인간 데이터를 제거한 알파제로가 더 강해졌다는 점은, 인간 지식이 때로는 한계로 작용함을 시사한다.
  • 알파고가 연 '거대한 조합 탐색 공간을 다루는 원리'는 단백질 접힘·행렬 곱셈 등 과학 난제로 그대로 이전됐다.
  • 검증 가능한 영역(코드·수학)에서 AI가 강한 이유는 환각(추측)을 걸러낼 검증기를 둘 수 있기 때문이며, 이는 포퍼의 '추측과 반박'과 통한다.

자주 묻는 질문

알파고와 이세돌의 대국 결과는 어땠나요?

2016년 3월 서울에서 7일에 걸쳐 진행됐고 최종 스코어는 알파고의 4승 1패였습니다. 이세돌은 4국에서 78수로 유일한 1승을 거뒀습니다.

'37수'가 왜 그렇게 유명한가요?

2국에서 나온 수로, 해설자들은 어떤 인간도 두지 않을 수라고 했고 알파고도 인간이 둘 확률을 1만분의 1로 봤습니다. 처음엔 실수로 여겨졌지만 후반에 승부의 전환점이 되며 AI가 인간 지식을 넘어설 수 있음을 보여줬습니다.

알파고와 알파제로의 차이는 무엇인가요?

알파고는 인간 프로 기보로 학습했지만, 알파제로는 인간 데이터 없이 규칙만으로 무작위 대국에서 출발해 스스로 학습했습니다. 알파제로는 인간 정석을 재발견한 뒤 더 나은 수를 찾으면 그것을 버리는 모습을 보였습니다.

알파고의 기법이 과학에는 어떻게 쓰였나요?

거대한 탐색 공간을 다루는 같은 방법론이 단백질 구조 예측(알파폴드), 50년 만에 더 빠른 행렬 곱셈을 찾은 알파텐서, 프로그램 공간을 탐색하는 알파에볼브, 수학 증명을 내놓는 알파프루프 등으로 확장됐습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식