AI VIDEO BRIEFING

RLHF(인간 피드백 강화학습) 쉽게 이해하기: AI를 인간 가치에 맞추는 법

대규모 언어 모델을 인간의 선호와 가치에 맞추는 기술 RLHF를, 강화학습의 기본 개념과 4단계 학습 과정, 그리고 비용·편향 같은 한계까지 정리한다.

출처: IBM Technology2024년 8월 7일AI 보조 요약

챗봇이 막말 대신 바른 답을 하는 이유: 인간 피드백 강화학습(RLHF) 영상 대표 이미지

핵심 메시지

RLHF는 AI의 성능을 높이고 출력을 인간의 선호·가치에 맞추는(정렬) 기술로, 우리가 대규모 언어 모델과 대화할 때 그 효과를 체감한다.
강화학습은 상태 공간, 행동 공간, 보상 함수, 정책이라는 요소로 이뤄진 수학적 틀로, 시행착오를 통한 학습을 모방한다.
복잡한 과제에서는 좋은 보상 함수를 정의하기 어려운데, RLHF는 인간의 긍정적 피드백으로 그 미묘함과 주관성을 포착한다.
LLM에서 RLHF는 사전학습 모델, 지도 미세조정, 보상 모델 학습, 정책 최적화의 4단계로 진행된다.
RLHF는 비용이 크고 인간 피드백이 주관적이며 편향·과적합·악의적 입력 위험이 있어, 이를 보완하려는 RLAIF(AI 피드백 강화학습)도 제안된다.

쉽게 이해하기

RLHF는 “인간 피드백을 통한 강화학습(Reinforcement Learning from Human Feedback)”의 약자로, 대규모 언어 모델과 상호작용할 때면 늘 그 효과를 보게 된다. 영상은 “나에게 잘못한 사람에게 복수하는 법”을 물었을 때, RLHF가 없으면 험담을 퍼뜨리라는 식의 답이 나올 수 있지만 RLHF를 거치면 다소 밋밋하더라도 인간의 가치에 더 잘 맞는 답을 내놓는다는 예로 그 역할을 보여준다.

먼저 RLHF의 “RL”인 강화학습은 인간의 학습 방식을 모방해 시행착오와 강한 성공 동기로 배우는 수학적 틀이다. 구성 요소로는 과제와 관련된 모든 정보를 담은 상태 공간, 에이전트가 내릴 수 있는 모든 결정을 담은 행동 공간, 성공의 척도인 보상 함수, 그리고 상태를 입력받아 행동을 내놓는 전략인 정책이 있다. 보드게임이라면 보상은 승리처럼 명확하지만, 텍스트 생성에서는 행동 공간이 모델의 전체 토큰 어휘만큼 방대하다.

문제는 성공의 정의가 모호한 복잡한 과제에서 좋은 보상 함수를 설계하기 어렵다는 점이다. 여기서 인간이 등장한다. 형식적으로 정의된 목표 대신 인간의 긍정적 피드백을 활용해 미묘함과 주관성을 담아내는 것이 RLHF의 핵심이다. LLM에서 RLHF는 보통 네 단계로 이뤄진다.

1단계는 사전학습 모델이다. RLHF는 처음부터 끝까지 학습시키는 방법이 아니라 기존 모델을 미세조정·최적화하는 데 쓰이므로 사전학습 모델이 필요하다. 2단계 지도 미세조정은 모델이 사용자가 기대하는 형식으로 답하도록 길들이는 과정으로, 인간 전문가가 질의응답·요약·번역 같은 용도별로 라벨링된 모범 예시를 만든다. 3단계 보상 모델 학습에서는 인간 평가자의 직접 피드백을 학습 데이터로 삼아, 인간의 선호를 수치 보상 신호로 바꾸는 보상 모델을 만든다.

보상 모델은 점수를 1~10으로 매기게 하기보다, 같은 프롬프트에 대한 두 출력을 맞대결시켜 비교하고 Elo 평점으로 순위를 매기는 방식이 흔하다. 마지막 4단계 정책 최적화에서는 보상 모델로 정책을 얼마나 갱신할지 정하는데, 통제 없이 보상만 좇으면 모델이 보상 체계를 악용해 의미 없는 출력을 낼 수 있다. 그래서 PPO(근위 정책 최적화) 같은 알고리즘으로 한 번에 갱신되는 정도를 제한한다. 다만 RLHF는 비용이 크고 피드백이 주관적이며 편향·과적합·악의적 입력 위험이 있어, 인간 대신 다른 LLM이 평가하는 RLAIF가 대안으로 제안된다.

주요 인사이트

RLHF의 핵심 가치는 “성공의 정의가 모호한 과제”에서 형식적 목표 대신 인간 피드백으로 미묘함과 주관성을 포착하는 데 있다.
보상 모델 학습 덕분에 인간이 매번 개입하지 않아도 오프라인으로 학습을 이어갈 수 있다.
인간 평가자에게 절대 점수를 매기게 하기보다 두 출력을 비교·서열화하는 방식이 평가자 간 기준 차이를 줄인다.
PPO 같은 알고리즘으로 정책 갱신 폭을 제한하지 않으면 모델이 보상을 악용해 횡설수설을 출력할 수 있다.
인간 피드백이 좁은 집단에서 수집되면 편향이 모델에 반영될 수 있고, 이를 완화하려는 시도가 RLAIF다.

자주 묻는 질문

RLHF는 무엇을 위한 기술인가요?

대규모 언어 모델의 성능을 높이고 출력을 인간의 선호·가치에 맞추는(정렬) 기술로, 유해하거나 부적절한 답 대신 인간 가치에 부합하는 답이 나오게 합니다.

LLM에서 RLHF는 어떤 단계로 진행되나요?

사전학습 모델 준비, 지도 미세조정, 보상 모델 학습, 정책 최적화의 네 단계로 진행됩니다.

보상 모델 학습에서 인간 피드백을 왜 점수 대신 비교로 모으나요?

평가자마다 같은 점수의 상대적 가치를 다르게 보기 때문에, 두 출력을 맞대결시켜 비교하고 Elo 평점으로 서열화하는 편이 기준을 맞추기 쉽기 때문입니다.

RLHF의 한계와 대안은 무엇인가요?

인간 피드백 수집 비용이 크고 피드백이 주관적이며 편향·과적합·악의적 입력 위험이 있습니다. 이를 보완하려고 다른 LLM이 평가를 대신하는 RLAIF가 제안됐습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗