AI VIDEO BRIEFING

강화학습이란? 에이전트·환경·정책·보상 핵심 개념 정리

StatQuest가 두 감자튀김 가게 중 어디를 갈지 고르는 비유로 강화학습의 작동 원리를 설명한다. 확률 갱신, 학습률, 그리고 에이전트·환경·정책·보상이라는 핵심 용어를 정리했다.

강화학습 쉽게 이해하기: 감자튀김 가게 고르기로 배우는 핵심 개념 영상 대표 이미지

핵심 메시지

  • 강화학습은 경험을 통해 학습하고 적응하는 방법으로, 게임·자율주행은 물론 ChatGPT의 응답을 더 자연스럽게 만드는 데도 쓰인다.
  • 처음엔 두 선택지의 확률을 똑같이 두고, 결과가 만족스러우면 그 선택지의 확률을 조금씩 높이는 방식으로 학습한다.
  • 학습률(learning rate)은 한 번에 확률을 얼마나 바꿀지 조절하며, 0이면 변화가 없고 1이면 과하게 쏠려 보통 0.1 같은 작은 값을 쓴다.
  • 핵심 용어는 환경·에이전트·정책·보상이며, 목표는 정책을 갱신해 보상을 최대화하는 것이다.

쉽게 이해하기

강화학습은 사람처럼 경험에서 배우고 적응하는 방법이다. StatQuest의 조시 스타머는 체커·바둑 같은 게임, 자율주행, 그리고 ChatGPT의 응답을 더 사람답게 만드는 일에까지 강화학습이 쓰인다고 소개하면서, 가본 적 없는 두 감자튀김 가게 '스쿼시'와 '놈' 중 어디를 갈지 고르는 단순한 예로 원리를 풀어낸다.

처음엔 두 가게에 갈 확률을 각각 0.5로 똑같이 둔다. 0과 1 사이 난수를 뽑아 어느 구간에 떨어지는지로 갈 곳을 정하고, 가서 받은 감자튀김이 만족스러우면 그 가게의 점수(fry score)를 1로 매긴다. 그런 다음 기존 확률과 점수, 그리고 학습률을 결합한 식으로 그 가게에 다시 갈 확률을 조금 높인다. 예컨대 놈에서 만족했다면 0.5에서 0.55로 올리고, 스쿼시는 0.45로 내린다.

학습률은 확률을 한 번에 얼마나 바꿀지 정하는 값으로 0과 1 사이에서 고른다. 0이면 아예 변하지 않고, 1이면 한 번의 경험만으로 확률이 완전히 한쪽으로 쏠려 다른 가게를 영영 시도하지 않게 된다. 그래서 보통 0.1 같은 작은 값을 기본으로 쓰고, 잘 안 되면 다른 값을 시험한다. 작은 변화로 최근 경험을 반영하면서도 다른 선택지를 탐색할 여지를 남기는 것이 요령이다.

이 과정을 반복하면, 자주 만족스러운 놈의 확률은 점점 오르고 종종 실망스러운 스쿼시의 확률은 내려간다. 충분히 반복하면 확률은 스쿼시 약 0.19, 놈 약 0.81 근처에서 안정된다. 즉 배가 고프면 대체로 놈에 가는 것이 낫다는 결론에 스스로 도달한다.

마지막으로 용어를 정리한다. 두 가게는 탐색하고 상호작용하는 대상인 '환경', 그 환경을 탐색하는 우리는 '에이전트', 어디로 갈지 정하는 확률은 '정책', 그리고 정책을 갱신하는 데 쓰는 점수는 '보상'이다. 강화학습의 목표는 정책을 다듬어 보상을 최대화하는 것이다.

주요 인사이트

  • 강화학습의 핵심은 '경험으로 확률(정책)을 조금씩 갱신해 보상을 최대화한다'는 단순한 반복 구조에 있다.
  • 학습률을 너무 크게 잡으면 한 번의 경험에 과도하게 쏠려 탐색을 멈추므로, 작은 값으로 천천히 학습하는 것이 안전하다.
  • 한 번 만족했다고 곧장 확신하지 않고 다른 선택지도 계속 시도하는 '탐색과 활용'의 균형이 비유 속에 녹아 있다.
  • 환경·에이전트·정책·보상이라는 네 용어만 잡으면 게임·자율주행·ChatGPT까지 같은 틀로 이해할 수 있다.

자주 묻는 질문

강화학습은 어디에 쓰이나?

체커·바둑 같은 게임에서 컴퓨터의 실력을 높이고, 자동차의 자율주행을 돕는 데 쓰인다. 또한 ChatGPT가 프롬프트에 더 사람처럼 응답하도록 만드는 데도 활용된다.

학습률(learning rate)은 어떤 역할을 하나?

확률을 한 번에 얼마나 바꿀지 조절한다. 0이면 변화가 없고, 1이면 한 번의 경험으로 확률이 완전히 쏠려 다른 선택지를 시도하지 않게 된다. 그래서 보통 0.1 같은 작은 값을 기본으로 쓴다.

강화학습의 핵심 용어 네 가지는 무엇인가?

탐색·상호작용 대상인 '환경', 그것을 탐색하는 주체인 '에이전트', 행동을 정하는 확률인 '정책', 그리고 정책을 갱신하는 점수인 '보상'이다. 목표는 보상을 최대화하도록 정책을 갱신하는 것이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식