AI VIDEO BRIEFING

RLHF란? 인간 피드백 강화학습으로 LLM을 미세조정하는 원리

사람이 답변에 순위를 매기고, 그 점수를 강화학습으로 학습시켜 언어모델을 다듬는 RLHF. 가치 신경망과 정책 신경망이 무엇을 흉내 내는지 그리드 게임 비유로 풀어본다.

출처: Luis Serrano Academy2024년 2월 12일AI 보조 요약

사람의 평가로 언어모델을 길들이는 법: RLHF를 그리드 게임으로 이해하기 영상 대표 이미지

핵심 메시지

RLHF는 사전학습을 마친 대형 언어모델을 사람의 평가로 추가로 미세조정하는 방법이다.
사람 평가자가 한 프롬프트에 대한 여러 답변을 좋은 순서대로 매기면, 그 순위가 점수로 바뀌어 학습 신호가 된다.
강화학습의 그리드 월드 비유에서 ‘문장에 한 단어씩 더하는 이동’으로 보면, 좋은 답변을 만드는 일이 점수를 최대화하는 게임이 된다.
가치 신경망은 사람 평가자가 줄 점수를 예측하도록, 정책 신경망은 다음 단어의 확률을 학습하도록 훈련된다.
결국 가치 신경망은 인간 평가자를 흉내 내고, 정책 신경망은 텍스트를 한 단어씩 생성하는 트랜스포머 그 자체다.

쉽게 이해하기

RLHF(인간 피드백 강화학습)는 방대한 데이터로 사전학습을 마친 언어모델을 한 번 더 다듬는 기법이다. 사람 평가자들이 같은 프롬프트에 대한 모델의 여러 답변을 좋은 것부터 나쁜 것까지 순위 매기고, 모델은 이 평가에서 높은 점수를 받는 ‘게임에서 이기도록’ 강화학습으로 학습한다.

영상은 먼저 강화학습을 그리드 월드로 복습한다. 에이전트가 칸을 움직이며 돈은 점수를, 용은 감점을 준다. 상태·행동·정책 같은 개념과 함께, 각 칸의 ‘가치’는 최적으로 움직였을 때 얻는 점수이고, 정책은 이웃 중 가장 가치 높은 곳으로 향하는 화살표로 나타난다.

모든 칸을 여러 번 방문해 가치를 정확히 계산하는 일은 상태가 많아지면 너무 비싸진다. 그래서 가치를 근사하는 가치 신경망과, 각 상태에서 상하좌우 확률을 주는 확률적 정책을 근사하는 정책 신경망을 PPO(근접 정책 최적화)로 함께 학습한다.

트랜스포머는 텍스트를 한 단어씩 생성한다. 프롬프트 뒤에 가장 그럴듯한 다음 단어를 붙이고, 그 결과를 다시 입력에 넣어 반복한다. 인터넷 같은 거대한 데이터로 학습한 뒤에도 환각이나 잘못된 답변이 남아 사람의 미세조정이 필요하다.

핵심 비유는 ‘문장을 만드는 그리드’다. 한 칸 이동이 문장에 단어 하나를 더하는 것이라면, “하늘은 무슨 색?”에 blue·red·banana 같은 후보가 갈래로 나뉜다. 평가자가 금·은·동메달을 매겨 3·2·1점을 주면, 가치 신경망은 그 점수를, 정책 신경망은 좋은 갈래에 높은 확률을 학습한다. 결국 가치 신경망은 인간 평가자를 모방하고, 정책 신경망은 다음 단어를 고르는 트랜스포머와 같은 일을 한다.

주요 인사이트

RLHF의 학습 신호는 절대 점수가 아니라 사람이 매긴 답변 사이의 ‘상대적 순위’에서 나온다.
텍스트 생성이라는 연속적 선택을, 한 단어씩 더하는 이동으로 보면 강화학습의 상태·행동·정책 틀에 그대로 들어맞는다.
가치 신경망은 인간 평가자의 점수를 예측하는 대리자이고, 정책 신경망은 사실상 우리가 쓰던 트랜스포머라는 점이 RLHF의 두 축을 설명한다.
실제 텍스트 공간은 격자가 아니라 문장마다 단어를 더하는 화살표(확률)로 연결된 고차원 공간이며, 그럴듯한 문장일수록 굵은 화살표로 이어진다.

자주 묻는 질문

RLHF는 언제 사용되나요?

대형 언어모델을 거대한 데이터로 사전학습한 뒤, 환각이나 잘못된 답변 등을 바로잡기 위해 사람의 평가로 추가 미세조정할 때 사용됩니다.

사람 평가자는 무엇을 하나요?

한 프롬프트에 대해 모델이 내놓은 여러 답변을 보고 가장 좋은 것부터 나쁜 것까지 순위를 매깁니다. 이 순위가 점수로 바뀌어 신경망 학습에 쓰입니다.

가치 신경망과 정책 신경망은 각각 무엇을 학습하나요?

가치 신경망은 사람 평가자가 각 답변에 줄 점수를 예측하도록, 정책 신경망은 다음 단어로 무엇이 올지의 확률을 학습합니다. 정책 신경망은 사실상 텍스트를 한 단어씩 생성하는 트랜스포머입니다.

영상에서 RLHF 다음 주제는 무엇이라고 했나요?

강화학습 4부작 중 세 번째인 이 영상에 이어, 다음 영상은 DPO(직접 정책 최적화)를 다룬다고 예고했습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗