AI VIDEO BRIEFING
벨만 방정식(Bellman Equation) 쉽게 이해하기 — 강화학습 가치 함수와 정책
강화학습은 상황을 행동에 매핑해 보상을 최대화하는 학습이다. 가치 기반 방법과 정책 기반 방법의 차이, 상태 가치 함수 V와 상태 행동 가치 함수 Q, 그리고 가치 함수를 재귀적으로 계산하는 벨만 방정식의 직관을 그리드 예제로 정리했다.

핵심 메시지
쉽게 이해하기
강화학습은 “무엇을 할지”를 배우는 것, 즉 상황(상태)을 행동에 매핑해 수치적 보상 신호를 최대화하는 학습이다. 이를 구현하는 방법은 크게 두 갈래로 나뉜다. 하나는 보상을 정량화하는 가치 함수를 구해 그로부터 최적 정책을 끌어내는 가치 기반 방법이고, 다른 하나는 최적 정책을 직접 찾는 정책 기반 방법이다. 여기서 정책이란 주어진 상황에서 에이전트가 어떻게 행동하는가를 뜻한다.
가치 기반 방법의 예로는 Q러닝, 심층 Q 네트워크(DQN), 사르사(SARSA)가 있고, 정책 기반 방법의 예로는 REINFORCE, 근위 정책 최적화(PPO), 신뢰 영역 정책 최적화(TRPO)가 있다. 벨만 방정식은 이 중 일부 가치 기반 방법이 활용하는 도구이므로, 영상은 가치 기반 방법에 초점을 맞춘다.
가치 함수에는 두 종류가 있다. 상태 가치 함수 V는 상태 s를 입력받아 “그 상태에 있는 것이 얼마나 좋은가”를 하나의 실수로 출력한다. 상태 행동 가치 함수 Q는 상태 s와 행동 a를 함께 입력받아 “상태 s에서 행동 a를 취하는 것이 얼마나 좋은가”를 Q값이라는 실수로 출력한다. 여기서 상태는 환경의 스냅숏, 행동은 에이전트가 내리는 결정이다.
직관은 간단한 그리드 예제로 잡을 수 있다. 마지막 칸에 도달하면 +10, 그 옆 독 칸은 −10, 나머지 칸은 −1의 보상을 준다. 첫 칸(S1)에서 오른쪽으로 가면 S2, 아래로 가면 S4에 도달한다. 이때 어떤 칸의 가치는 “그 칸으로 전이할 때 얻는 보상 + 이후의 최대 미래 가치”로 표현되며, 최대값은 어떤 행동을 택하느냐에 달려 있다.
다만 현실적인 환경은 확률적이어서, 오른쪽으로 움직였다고 반드시 S2로 가는 것은 아니다. 일정 확률로 다른 상태로 갈 수 있다. 그래서 가치 함수는 “전이 확률 × 다음 상태의 가치”를 모두 더한 기대값으로 계산한다. 또한 교과서 수식에는 미래 보상의 중요도를 0과 1 사이 값으로 깎아 주는 할인 계수 감마가 들어간다. 이렇게 가치 함수를 재귀적으로 계산하는 전략이 바로 벨만 방정식이며, Q러닝 같은 일부 가치 기반 방법이 이를 사용한다.
주요 인사이트
- 벨만 방정식의 핵심은 “현재 가치 = 즉시 보상 + 미래 가치”라는 재귀 구조로, 복잡해 보이는 수식도 이 직관 위에 세워진다.
- 결정론적 예제에서 확률적 환경으로 넘어가면 단순 최대값이 “전이 확률을 곱한 기대값”으로 바뀌는데, 이것이 실제 강화학습 수식이 복잡해 보이는 이유다.
- 벨만 방정식은 그 자체가 알고리즘이 아니라 가치 함수를 계산하는 재귀적 전략이며, Q러닝처럼 일부 가치 기반 방법만이 이를 채택한다.
자주 묻는 질문
가치 기반 방법과 정책 기반 방법은 어떻게 다른가요?
가치 기반 방법은 보상을 정량화하는 가치 함수를 먼저 구해 그로부터 최적 정책을 끌어냅니다. 정책 기반 방법은 가치 함수를 거치지 않고 최적 정책을 직접 찾습니다.
상태 가치 함수 V와 상태 행동 가치 함수 Q의 차이는 무엇인가요?
V는 상태 s만 입력받아 그 상태에 있는 것이 얼마나 좋은지를 출력하고, Q는 상태 s와 행동 a를 함께 입력받아 그 상태에서 그 행동을 취하는 것이 얼마나 좋은지(Q값)를 출력합니다.
할인 계수 감마는 무엇을 하나요?
감마는 0과 1 사이의 값으로, 현재 얻는 보상과 미래에 얻을 보상의 상대적 중요도를 조절합니다. 미래 보상에 곱해져 그 비중을 깎아 줍니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗