AI VIDEO BRIEFING

액터-크리틱 강화학습의 원리 정리: 정책망과 가치망이 함께 배우는 방법과 한계점까지

강화학습의 액터-크리틱 방법을 마르코프 결정 과정부터 시간차 학습까지 단계별로 풀어 설명한다. 행동을 정하는 정책망과 상태를 평가하는 가치망이 어떻게 협력하는지, 손실은 어떻게 계산하는지, 왜 불안정한지를 정리했다.

출처: Machine Learning with Phil2020년 9월 30일AI 보조 요약

강화학습 액터-크리틱 입문: 행동을 고르는 정책망과 평가하는 가치망 영상 대표 이미지

핵심 메시지

강화학습은 환경과 상호작용하며 받은 보상의 총합을 최대화하도록 에이전트를 학습시키는 문제다.
액터-크리틱은 행동을 선택하는 정책망(액터)과 그 상태의 가치를 추정하는 가치망(크리틱) 두 신경망을 함께 사용한다.
크리틱이 계산한 시간차 오차(delta)로 두 망을 매 스텝 갱신한다. 크리틱은 오차의 제곱으로, 액터는 정책의 로그확률에 오차를 곱한 값으로 학습한다.
할인 계수 감마는 먼 미래 보상의 비중을 줄여 무한 보상 문제를 피하고 미래의 불확실성을 반영한다.
액터-크리틱은 강력하지만 불안정해 점수가 갑자기 무너질 수 있으며, 더 발전된 알고리즘으로 가는 디딤돌이다.

쉽게 이해하기

강화학습은 에이전트가 환경에 행동을 가해 변화를 일으키고 그 대가로 보상을 받으며, 시간에 걸친 총보상을 최대화하도록 배우는 틀이다. 이 문제를 풀 수 있게 해 주는 핵심 전제가 마르코프 성질로, 시스템의 다음 상태가 직전 상태와 마지막 행동에만 의존한다는 것이다. 에이전트가 보는 상태, 취하는 행동, 받는 보상의 집합이 마르코프 결정 과정(MDP)을 이룬다.

상태는 환경에서 변하는 것을 나타내는 표현이고(미로 속 위치나 착륙선의 위치·속도·각도 등), 행동은 에이전트가 고르는 선택지다. 에이전트가 무엇을 할지는 정책 파이(π)가 결정하는데, 정책은 상태를 입력받아 각 행동을 고를 확률을 돌려주는 함수다. 보상 설계는 까다로워서, 예를 들어 미로를 빨리 풀게 하려면 탈출에만 보상을 주는 대신 매 걸음에 -1의 벌점을 줘야 한다.

한 에피소드 동안 받은 보상의 누적합을 '리턴'이라 부르며, 끝이 없는 과제에서 보상이 무한대로 발산하는 것을 막기 위해 할인 계수 감마(0~1)를 도입한다. 먼 미래의 보상일수록 감마의 거듭제곱으로 비중을 줄이는데, 이는 미래 상태일수록 불확실하다는 점과도 잘 맞는다. 어떤 정책을 따를 때 특정 상태에서 기대되는 리턴이 가치함수 V이고, 특정 상태에서 특정 행동을 한 뒤의 기대 리턴이 행동가치함수 Q다.

실제로는 이 값들을 풀지 않고 신경망으로 추정한다. 신경망은 범용 함수 근사기이므로 환경에서 표본으로 얻은 보상으로 가중치를 갱신해 가치를 점점 정확히 추정한다. 액터-크리틱은 두 신경망을 쓰는데, 액터는 정책을 직접 근사해 행동을 고르고, 크리틱은 가치함수를 근사해 그 상태가 얼마나 좋은지 평가한다. 두 망은 시간차 학습으로 매 스텝 갱신되며, 핵심 신호는 delta = 보상 + 감마×다음 상태 가치 − 현재 상태 가치다.

크리틱의 손실은 delta의 제곱으로 일종의 회귀 문제처럼 다루고, 액터의 손실은 −(정책 로그확률)×delta로 정의된다. 실무에서는 공통 입력층에 두 개의 출력(가치 한 개, 행동 확률은 소프트맥스)을 붙여 하나의 네트워크로 액터와 크리틱을 함께 둘 수도 있다. 다만 이 방법은 매우 예민해서 학습 곡선이 전반적으로 오르다가도 어느 순간 절벽처럼 무너지곤 하며, 그래서 경험 재생 같은 안정화 기법을 결합한 더 발전된 알고리즘들의 출발점이 된다.

주요 인사이트

보상 설계가 학습 결과를 좌우한다. 목표 달성에만 보상을 주면 빠르게 푸는 동기가 생기지 않으므로, 매 스텝 벌점을 주는 식으로 의도를 보상 구조에 새겨 넣어야 한다.
가치함수는 재귀적으로 풀린다. 마르코프 성질 덕분에 전체 보상 이력을 들고 다닐 필요 없이, 현재 리턴을 '다음 보상 + 할인된 다음 리턴'으로 쪼개 연속한 두 스텝만 보면 된다.
액터 손실에 정책의 로그확률을 곱하는 것은 정책 경사 계열의 수학에서 나온다. 좋은 행동의 선택 확률은 높이고 나쁜 행동의 확률은 낮추는 방향으로 정책을 직접 밀어 준다.
종단(터미널) 상태의 가치는 0으로 둔다. 그 뒤로는 어떤 보상도 따라오지 않기 때문에, delta를 계산할 때 종단 여부로 다음 상태 가치 항을 꺼 준다.
액터-크리틱은 그 자체로는 깨지기 쉬운 기초 알고리즘이다. 경험 재생을 그대로 붙이기는 어렵고, 이를 위해 별도로 고안된 알고리즘이 존재할 만큼 안정화가 중요한 주제다.

자주 묻는 질문

액터와 크리틱은 각각 무엇을 학습하나요?

액터는 상태를 받아 각 행동의 선택 확률을 내놓는 정책을 학습하고, 크리틱은 그 상태가 앞으로 얼마나 좋은 리턴을 줄지를 나타내는 가치함수를 학습합니다. 액터가 행동을 고르면 크리틱이 그 결과 상태를 평가해 액터를 더 나은 방향으로 이끕니다.

시간차 오차 delta는 어떻게 계산하나요?

delta는 현재 받은 보상에 할인 계수 감마를 곱한 다음 상태의 가치를 더하고, 현재 상태의 가치를 뺀 값입니다. 크리틱은 이 delta의 제곱을, 액터는 정책 로그확률에 delta를 곱한 값을 손실로 사용합니다. 종단 상태의 가치는 0으로 둡니다.

액터-크리틱이 불안정하다는 것은 무슨 뜻인가요?

학습 점수가 전반적으로 오르다가도 갑자기 급락하는 일이 흔하다는 뜻입니다. 학습률이 조금만 높아도 모델이 무너질 수 있어, 단순한 환경에서 검증하거나 경험 재생 같은 추가 기법을 얹은 발전형 알고리즘을 쓰는 경우가 많습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗