AI VIDEO BRIEFING

알파고 제로 작동 원리: 자가 대국·잔차 신경망·몬테카를로 트리 탐색으로 바둑 정복

구글 딥마인드의 알파고 제로가 인간 기보와 수작업 특징 없이 오직 자가 대국만으로 바둑을 익힌 다섯 가지 핵심 변화를 잔차 신경망과 몬테카를로 트리 탐색을 중심으로 정리했습니다.

출처: Arxiv Insights2017년 11월 13일AI 보조 요약

알파고 제로, 인간 기보 한 장 없이 스스로 바둑을 정복한 비결 영상 대표 이미지

핵심 메시지

알파고 제로는 인간 프로 기사의 기보 데이터셋을 전혀 쓰지 않고 처음부터 자가 대국만으로 바둑을 학습했다.
수작업으로 설계한 바둑 특징을 모두 없애고 보드 상태만 보고 배우며, 정책망과 가치망을 하나의 잔차(ResNet) 신경망으로 통합했다.
몬테카를로 트리 탐색(MCTS)이 불안정해지기 쉬운 자가 대국 학습을 안정화하는 핵심 장치였다.
보드의 한 수를 평가할 때마다 약 1,600회 시뮬레이션을 돌려 가치망으로 유망한 수를 가려냈다.
이 방식은 완벽한 시뮬레이터가 있는 완전정보 게임에 특화돼 있어 현실 문제에 그대로 옮기기는 어렵다.

쉽게 이해하기

구글 딥마인드가 발표한 알파고 제로 논문은 이세돌을 이긴 이전 버전보다 한층 강해진 모델을 소개한다. 영상은 그 향상을 만든 다섯 가지 변화를 정리하는데, 핵심은 인간 기보 데이터셋을 전혀 쓰지 않고 처음부터 자가 대국만으로 학습한다는 점, 수작업 특징을 모두 제거한 점, 그리고 신경망 구조와 탐색 방식을 단순화한 점이다.

입력은 19×19 바둑판이다. 흰 돌과 검은 돌을 각각 별도의 이진 특징 맵으로 표현하고, 여기에 직전 일곱 수의 과거 판 상태를 더한다. 딥마인드는 Q&A에서 이 과거 기록이 일종의 어텐션처럼 작동해 상대가 둔 수에 집중하게 해 준다고 답했고, 바둑 규칙상 최근 수순을 알아야 둘 수 있는 수가 있다는 점도 이유로 들었다. 여기에 지금이 누구 차례인지를 나타내는 정보까지 판 전체에 복제해 더해 최종 입력을 구성한다.

신경망은 기존의 인셉션 기반 합성곱 구조 대신 완전한 잔차(ResNet) 구조로 바뀌었다. 잔차 연결은 입력에서 출력으로 곧장 이어지는 통로를 둬 학습 신호(그래디언트)가 층을 그대로 통과하게 하므로, 학습 초기에 아직 쓸모 있는 일을 못 하는 층이 있어도 다른 층을 미세 조정하는 신호가 잘 전달된다. 이 신경망은 승리 확률을 나타내는 0~1 사이의 가치값과, 둘 수 있는 모든 수에 대한 확률 분포인 정책 벡터를 함께 내놓는다.

이세돌을 이긴 버전은 프로 기보로 지도학습을 한 뒤 자가 대국으로 미세 조정하는 2단계로 훈련됐지만, 알파고 제로는 데이터셋 없이 오직 자가 대국으로 배운다. 보통 자가 대국만으로 학습하면 신경망이 매우 불안정해지는데, 딥마인드는 몬테카를로 트리 탐색이 이를 안정화한다고 설명했다. 탐색은 정책 벡터에서 확률이 높은 수들을 골라 두어 보며 새로운 판 상태로 가지를 뻗고, 이를 반복해 거대한 탐색 트리를 만든다. 알파고는 보드 한 수마다 약 1,600회 시뮬레이션을 돌린 뒤 가치망으로 유망한 위치를 평가해 그 값을 위로 거슬러 올려 강한 수를 가려낸다.

논문 그래프를 보면 트리 탐색 없이 정책 벡터에서 단번에 최선의 수만 고른 경우의 기력은 눈에 띄게 낮다. 즉 딥러닝의 승리처럼 보여도 수많은 시뮬레이션이라는 계산력 자체가 여전히 큰 몫을 한다. 다만 이는 완벽한 시뮬레이터가 있는 완전정보 게임이기에 가능한 일로, 현실에서는 보통 누릴 수 없는 큰 이점이다. 또 알파고는 프로와 다른 방식으로 바둑을 두고, 인간이 오래 써 온 정석(예: 날일자·한 칸 뜀·3·3 침입)을 자가 대국으로 발견했다가 더 강한 전술을 찾으면 점차 덜 쓰게 되는 모습도 보였다.

주요 인사이트

잔차 연결은 학습 신호가 층을 곧장 통과하게 해, 초기 학습에서 아직 무의미한 층이 있어도 전체 미세 조정을 돕는다.
과거 일곱 수를 입력에 포함한 것은 상대 수에 집중하게 하는 어텐션 같은 효과를 낸다고 딥마인드가 밝혔다.
트리 탐색을 뺀 신경망 단독 기력이 크게 낮다는 점은, 시뮬레이션이라는 계산력이 성능의 큰 축임을 보여 준다.
완벽한 시뮬레이터로 미래를 끝까지 둬 볼 수 있다는 점은 현실 문제에는 거의 없는 특수한 이점이다.
정책망과 가치망 통합, 합성곱에서 잔차 구조로의 전환이 각각 기력을 끌어올렸고, 둘을 합쳤을 때 최종 시스템이 완성됐다.

자주 묻는 질문

알파고 제로는 이전 버전처럼 인간 기보로 학습했나요?

아니요. 이세돌을 이긴 버전은 프로 기보 지도학습 뒤 자가 대국으로 미세 조정했지만, 알파고 제로는 어떤 인간 기보 데이터셋도 쓰지 않고 처음부터 오직 자가 대국으로 배웁니다.

자가 대국만으로 학습하면 불안정한데 어떻게 해결했나요?

딥마인드는 몬테카를로 트리 탐색(MCTS)이 자가 대국 학습 과정을 안정화한다고 설명했습니다. 이는 레딧 Q&A에서 가장 많이 나온 질문에 대한 답이기도 했습니다.

보드의 한 수를 평가할 때 시뮬레이션을 몇 번 돌리나요?

알파고 팀은 보드 한 수를 평가할 때마다 약 1,600회의 시뮬레이션을 돌리도록 했고, 그 시점에 가치망으로 각 위치의 승산을 판단합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗