AI VIDEO BRIEFING

Q-러닝과 시간차 학습 이해하기: 환경 모델 없는 강화학습의 핵심 원리와 SARSA 비교

환경 모델 없이 시행착오로 배우는 강화학습에서 몬테카를로 학습과 시간차 학습의 차이부터 Q-러닝과 SARSA, 오프폴리시와 온폴리시의 구분, 그리고 입실론-그리디 탐험 전략까지 핵심 원리를 쉽게 정리했습니다.

출처: Steve Brunton2022년 1월 14일AI 보조 요약

환경 모델 없이 배우는 강화학습: Q-러닝과 시간차 학습의 원리 영상 대표 이미지

핵심 메시지

품질 함수 Q(s,a)는 어떤 상태 s에서 행동 a를 했을 때의 가치를 알려주며, 가치 함수와 정책을 여기서 끌어낼 수 있다.
전이 확률과 보상 모델을 모를 때는 동적 계획법을 쓸 수 없어, 시행착오로 배우는 모델 없는 강화학습이 필요하다.
시간차(TD) 학습은 '보상+다음 상태 가치 추정'을 목표로 삼아 기존 추정과의 오차로 갱신하며, 생물학적 학습과 깊은 연관이 있다.
Q-러닝은 Q 함수에 대한 오프폴리시 TD 학습으로, 차선의 행동이나 남의 플레이·과거 경험에서도 배울 수 있다.

쉽게 이해하기

강화학습의 핵심에는 품질 함수 Q(s,a)가 있다. 이는 현재 상태 s에서 행동 a를 취했을 때의 가치를 알려준다. 가치 함수 V(s)는 최선의 행동을 가정한 상태의 가치이고, 최적 정책은 Q를 최대로 만드는 행동을 고르는 것이다. 마르코프 결정 과정(MDP)에서 Q는 '지금 받을 보상'에 '다음 상태에서 받을 미래 보상'을 더한 기댓값으로 정의되며, 환경은 같은 행동에도 확률적으로 다른 상태로 전이한다.

벨만 방정식에 기반한 동적 계획법(정책 반복·가치 반복)은 전이 확률 p와 보상 함수 r의 '모델'을 알아야 작동한다. 하지만 현실의 많은 시스템에서는 환경이 어떻게 전이할지, 보상 구조가 어떤지 미리 알 수 없다. 그래서 직접 부딪쳐 보며 배우는 모델 없는 강화학습이 필요하다. 틱택토를 처음 배울 때 규칙과 보상을 몸으로 익히는 것과 같은 이치다.

가장 단순한 방법은 몬테카를로 학습이다. 에피소드(게임 한 판) 전체를 끝까지 진행한 뒤 할인된 누적 보상을 구하고, 그 보상을 거쳐 온 모든 상태에 똑같이 나눠 준다. 편향이 없다는 장점이 있지만, 승리로 가는 모든 수를 동등하게 취급하기 때문에 매우 비효율적이다. 멋진 경기 끝에 둔 나쁜 수나, 운으로 이긴 나쁜 경기의 수들이 모두 같은 비중을 받는다.

다른 한 축은 시간차(TD) 학습이다. 전체 경로를 평균 내는 대신, '보상+할인된 다음 상태 가치'라는 TD 목표와 기존 가치 추정의 차이(TD 오차)로 갱신한다. TD0는 한 걸음 앞만 보고, 더 최근에 일어난 사건에 보상과의 관련성을 더 크게 둔다. 이는 파블로프의 개나 '함께 발화한 세포가 함께 연결된다'는 도파민 보상 신호 등 생물학적 학습과 놀랍도록 닮아 있다. n걸음으로 확장할 수 있고, 모든 단계를 지수 가중으로 합치는 TD(λ)도 있다.

Q-러닝은 바로 이 시간차 학습을 품질 함수 Q에 적용한 것이다. 핵심은 TD 목표를 계산할 때 다음 상태에서 '행동에 대한 최댓값(max)'을 취한다는 점이다. 덕분에 실제로는 차선이거나 무작위인 행동으로 보상을 얻어도 학습이 가능한 '오프폴리시'가 된다. 반면 SARSA(상태-행동-보상-상태-행동)는 다음에 실제로 취한 행동을 그대로 쓰는 '온폴리시'로, 최선의 정책을 따라야만 추정이 나빠지지 않는다.

주요 인사이트

Q-러닝의 오프폴리시 성질 덕분에 그랜드마스터의 대국을 지켜보거나, 과거의 불완전했던 경험을 다시 떠올리는 것만으로도 품질 함수를 개선할 수 있다.
탐험을 위해 흔히 입실론-그리디를 쓴다. 큰 입실론으로 무작위 행동을 많이 하다가, 학습이 쌓이면 입실론을 0으로 식혀(어닐링) 점차 최적 정책을 따른다.
SARSA는 무작위로 위험한 행동을 하지 않아 학습 중에 더 안전하다. 초보 운전자를 가르칠 때처럼 안전이 중요하면 Q-러닝보다 SARSA가 적합하다.
n걸음 TD에서 n을 무한대(에피소드 끝)로 보내면 결국 몬테카를로 학습으로 수렴한다. 즉 두 방법은 같은 스펙트럼의 양 끝이다.

자주 묻는 질문

모델 없는 강화학습이 왜 필요한가요?

벨만 방정식 기반 동적 계획법은 전이 확률과 보상 함수의 모델을 알아야 합니다. 하지만 많은 현실 시스템은 환경의 전이나 보상 구조를 미리 알 수 없어, 시행착오로 직접 배우는 모델 없는 방법이 필요합니다.

Q-러닝과 SARSA의 차이는 무엇인가요?

Q-러닝은 TD 목표에서 다음 상태의 행동을 최댓값으로 취하는 오프폴리시라, 차선의 행동에서도 배울 수 있습니다. SARSA는 실제 취한 다음 행동을 쓰는 온폴리시라, 최선의 정책을 따라야 추정이 나빠지지 않습니다.

몬테카를로 학습과 시간차 학습은 어떻게 다른가요?

몬테카를로는 에피소드 전체를 끝낸 뒤 누적 보상을 모든 상태에 똑같이 나눠 줘 편향은 없지만 비효율적입니다. 시간차 학습은 한 걸음 앞의 보상과 가치 추정의 차이로 갱신해, 최근 사건에 더 큰 비중을 둡니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗