AI VIDEO BRIEFING

강화학습 기초 — 보상, 상태, 정책, 탐험과 활용의 균형

강화학습은 시행착오를 거쳐 보상을 최대화하도록 AI를 훈련하는 방법이다. 에이전트·상태·보상·정책 같은 핵심 개념과 탐험과 활용의 균형을 쉬운 예시로 설명한다.

출처: CrashCourse2019년 10월 11일AI 보조 요약

핵심 메시지

강화학습은 시행착오를 반복하며 복잡한 목표를 달성하도록 학습하는 방법으로, 보통 작업이 끝난 뒤에야 성공 여부(보상)를 알려준다.
정답을 알려주는 지도학습, 패턴을 찾는 비지도학습과 달리, 강화학습은 우리가 명확히 설명하기 어려운 기술(예: 걷기)을 익히게 하는 데 특히 유용하다.
핵심 용어는 에이전트, 상태(현재 입력), 행동, 보상(잘했다는 작은 긍정 신호)이며, 어떤 행동이 보상에 기여했는지 가리는 '신용 할당'이 가장 어려운 부분이다.
에이전트는 상태에 값을 매기고, 그 값을 바탕으로 어떤 행동을 할지 정하는 정책을 세운다.
이미 아는 길을 쓰는 '활용'과 더 나은 길을 찾는 '탐험' 사이의 균형이 강화학습의 핵심 과제다.

쉽게 이해하기

영상은 높은 선반의 쿠키 단지를 꺼내는 상황으로 강화학습을 소개한다. 사다리를 쓰든 올가미를 쓰든, 무엇이든 성공하면 보상을 얻고 같은 행동을 반복하면 또 보상을 얻을 수 있음을 배운다. 이렇게 시행착오로 복잡한 목표를 달성하도록 배우는 것이 강화학습이다. 이는 정답을 주는 지도학습, 패턴을 찾는 비지도학습과 구분된다.

강화학습은 우리 스스로도 완전히 설명하기 어려운 기술을 가르칠 때 특히 빛난다. 사람은 걸을 수 있지만 걷는 과정을 정확히 설명하기는 어렵다. 강화학습에서는 똑바로 서서 앞으로 나아가면 보상을 주고, 더 오래 그 상태를 유지할수록 더 많은 보상을 준다. AI에게 보상은 그저 '잘했으니 또 그렇게 하라'는 작은 긍정 신호다. 영상은 구글 딥마인드가 가상 AI에게 걷고 뛰고 장애물 밑으로 숙이는 법을 학습시킨 사례를 든다.

이를 설명하려면 새로운 용어가 필요하다. 학습하는 주체는 에이전트(agent)이고, 에이전트는 현재 입력인 상태(state)를 바탕으로 행동(action)을 한다. 지도학습과 달리 매 행동마다 옳고 그름을 알려주는 라벨이 없는데, 작업이 끝나기 전에는 무엇이 옳은지 알 수 없기 때문이다. 그래서 어떤 행동이 보상에 기여했고 어떤 행동이 발목을 잡았는지 가려내는 '신용 할당(credit assignment)'이 강화학습에서 가장 어려운 문제 중 하나다.

에이전트는 상태마다 값을 매기고, 그 값을 바탕으로 정책(policy)을 세운다. 영상은 부엌의 상자(도넛 6개 추정), 봉지(2개), 접시(1개)를 예로 든다. 가장 높은 값을 노리는 정책은 고위험 고수익이고, 접시를 택하면 저위험 저수익이다. 보장된 양보다 가능성을 함께 따지는 중간 정책도 가능하다. 격자방을 탐색하는 로봇 '존 그린봇'은 배터리를 찾으면 보상(+1)을 받고, 지나온 칸들에 값을 매기되 목표에 가까울수록 더 높은 값을 부여한다.

여기서 탐험(exploration)과 활용(exploitation)의 균형이 등장한다. 이미 아는 10단계 경로만 반복하면(활용) 길을 잃지 않고 보상을 보장받지만 비효율적이다. 여러 행동을 시도하는 탐험을 하면 더 짧은 길을 찾을 수 있다. 영상의 예에서 탐험으로 4단계 지름길을 발견하지만, 그 100번의 탐험 동안에는 비효율적인 길도 거쳐 점수를 적게 얻는다. 다만 이후 같은 100번을 비교하면 4단계 경로를 아는 쪽이 25점, 10단계만 아는 쪽이 10점을 얻어 학습의 효과가 드러난다.

문제는 더 복잡해질 수 있다. 더 큰 보상(+3 배터리)이나 피해야 할 음의 보상(블랙홀)이 추가되면 최적 정책이 달라지고, 자율주행처럼 환경 자체가 매일 바뀌는 경우 같은 길도 매번 달라진다. 많은 문제에서는 가치 함수(value function)로 지금까지의 결과를 평가해 다음 수를 정한다. 강화학습은 수십 년 된 강력한 도구지만 많은 데이터와 시간이 필요하며, 최근에는 대규모 연산을 활용한 심층 강화학습 덕분에 AI가 게임을 학습하는 등 인상적인 성과가 나오고 있다.

주요 인사이트

강화학습의 강점은 정답을 일일이 지정하기 어려운 기술을, 끝에 주는 보상만으로 시행착오를 통해 익히게 하는 데 있다.
'신용 할당' 문제는 매 행동마다 멈춰 판단하지 않기 때문에, 어떤 행동이 보상에 기여했는지 사후에 되짚어야 한다는 강화학습 특유의 어려움이다.
값(value)과 정책(policy)은 강화학습의 두 축으로, 상태에 값을 매기고 그 값을 바탕으로 행동을 결정한다.
탐험과 활용은 트레이드오프 관계다. 단기적으로는 탐험이 점수를 깎을 수 있지만, 더 효율적인 경로를 찾으면 장기적으로 더 큰 보상을 얻는다.
환경이 매번 바뀌고 보상이 여러 종류일 때 문제는 훨씬 어려워지며, 대규모 연산 기반의 심층 강화학습이 이런 복잡한 문제 해결의 돌파구가 되고 있다.

자주 묻는 질문

강화학습은 지도학습·비지도학습과 어떻게 다른가?

지도학습은 교사가 정답을 주고, 비지도학습은 데이터에서 패턴을 찾는다. 강화학습은 작업이 끝난 뒤 주어지는 보상을 바탕으로 시행착오를 거쳐 목표 달성 방법을 스스로 학습한다.

'신용 할당' 문제란 무엇인가?

보상이 작업 끝에야 주어지기 때문에, 거쳐 온 여러 행동 중 어떤 것이 보상에 기여했고 어떤 것이 방해가 됐는지 가려내기 어려운 문제다. 강화학습에서 가장 까다로운 부분 중 하나다.

값(value)과 정책(policy)은 무엇인가?

값은 각 상태에 매기는 수치적 평가이고, 정책은 그 값을 바탕으로 어떤 행동을 할지 정하는 계획이다. 강화학습에서는 이 둘이 있어야 무언가를 해낼 수 있다.

탐험과 활용의 균형이 왜 중요한가?

이미 아는 경로만 쓰는 활용은 보상을 보장하지만 비효율적일 수 있고, 새 행동을 시도하는 탐험은 더 나은 경로를 찾게 해준다. 단기 손해를 감수하더라도 장기적으로 더 큰 보상을 얻기 위해 둘의 균형이 필요하다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗