AI VIDEO BRIEFING

RLHF란? ChatGPT 정렬의 핵심 인간 피드백 강화학습과 RLAIF 정리

ChatGPT가 사람처럼 답하게 만든 핵심 기법 RLHF(인간 피드백 기반 강화학습)의 단계별 원리와, 사람 대신 AI가 피드백을 주는 앤트로픽의 대안 RLAIF까지 자막에 담긴 내용을 정리했습니다.

출처: What's AI by Louis-François Bouchard2023년 12월 13일AI 보조 요약

ChatGPT를 사람처럼 만든 비결 RLHF, 그리고 AI가 AI를 가르치는 RLAIF 영상 대표 이미지

핵심 메시지

RLHF는 인간의 피드백을 강화학습에 결합해 LLM을 사람의 의도에 맞게 정렬하는 방법으로, ChatGPT를 이전 모델과 다르게 만든 핵심이다.
과정은 인터넷 사전학습 → 대화 데이터로 지도 미세조정 → 사람이 여러 응답에 순위 매기기 → 그 순위를 흉내 내는 보상 모델 학습 → 보상 모델로 LLM 재학습 순으로 진행된다.
재학습에는 근접 정책 최적화(PPO)가 쓰이며, 모델이 행동을 급격히 바꾸지 않으면서 피드백으로 점진 개선하게 한다.
RLHF는 수백 명의 평가자가 필요해 비용이 크고 순위 매기기가 주관적이라는 한계가 있다.
대안인 RLAIF는 사람 대신 헌법(원칙 모음)을 따르는 AI 피드백 모델이 순위를 매겨, 확장성이 높고 주관성이 줄어든다.

쉽게 이해하기

영상은 ChatGPT가 큰 화제가 된 이유가 무료라서가 아니라 네 글자, RLHF(인간 피드백 기반 강화학습) 때문이라고 말한다. RLHF는 이전 언어모델과 ChatGPT를 가르는 결정적 차이이자, 모델이 사용자의 의도를 이해하고 사람처럼 답하게 만든 비결이다.

RLHF는 인간 피드백과 강화학습을 LLM에 통합해 사람의 목표와 모델을 정렬한다. 텍스트 생성을 강화학습 문제로 보면, 언어모델이 에이전트, 가능한 언어 출력이 환경, 응답이 맥락·사용자 의도에 맞는 정도가 보상이 된다. 다만 RLHF는 이미 어느 정도 답을 잘 만드는 모델이 전제되므로, 먼저 인터넷 데이터로 모델을 학습시킨 뒤에 시작한다.

첫 단계는 GPT-3.5 같은 강력한 모델을 대화 예시로 지도 미세조정하는 것이다. 인터넷 전체가 아니라 대화에 초점을 좁혀, 만능형보다 대화 전문가로 만드는 셈이다. 하지만 규칙을 아는 것과 잘하는 것은 다르다. 테니스 규칙을 안다고 잘 치는 게 아니듯 모델도 연습이 필요하고, 그 연습이 RLHF다.

구체적으로는 모델에게 같은 질문에 여러 응답을 만들게 한 뒤 사람이 얼마나 사람다운지 순위를 매긴다. 이 순위 데이터로 사람의 선호를 흉내 내는 별도의 AI, 즉 보상 모델을 학습시킨다. 그다음 언어모델이 만든 응답을 보상 모델이 평가하고, 그 점수를 피드백 삼아 언어모델을 세 번째로 학습시켜 사람이 선호하는 방향으로 수렴시킨다.

문제는 비용이다. 수백 명을 고용해 대화하고 순위를 매기는 일은 비싸고, 평가 자체가 주관적이다. 그 대안이 앤트로픽이 개발한 RLAIF(AI 피드백 기반 강화학습)다. 사람 대신, 사람이 준 헌법(소수의 원칙·지침)을 따르는 AI 피드백 모델이 자동으로 선호 데이터를 만들고 이것으로 보상 모델을 학습시킨다. RLHF의 유용성을 유지하면서 무해성을 높이고, 주관성과 편향을 줄이며, 시간·비용 면에서 훨씬 확장 가능하다. 영상은 구글의 한 논문에서 사람들이 RLHF보다 RLAIF로 학습한 모델을 더 선호했다는 사실도 소개한다.

주요 인사이트

RLHF의 핵심 트릭은 사람의 순위 데이터를 그대로 쓰지 않고, 그것을 흉내 내는 '보상 모델'이라는 또 다른 AI로 바꿔 자동 피드백을 만든다는 점이다.
지도 미세조정이 모델의 초점을 대화로 좁힌다면, RLHF는 그 위에서 사람이 선호하는 응답으로 방향을 잡는 별개의 학습 단계다.
PPO는 모델이 피드백을 반영하되 행동을 급격히 바꾸지 않게 해, 학습 안정성을 지키는 장치다.
정렬(alignment)이란 결국 모델이 우리가 원하는 대로 정확히 행동하게 만드는 것이며, RLHF가 그 주된 수단이다.
RLAIF는 사람의 자리를 헌법을 따르는 AI로 대체해 주관성과 비용을 줄이며, 안전하고 효율적인 LLM 학습의 유력한 방향으로 제시된다.

자주 묻는 질문

RLHF는 무엇을 위해 쓰이나요?

인간의 피드백을 강화학습에 결합해 LLM을 사람의 목표·의도에 맞게 정렬하기 위해 쓰입니다. ChatGPT가 사용자가 원하는 바를 이해하고 사람처럼 답하게 만든 핵심 기법입니다.

보상 모델은 어떤 역할을 하나요?

사람이 응답에 매긴 순위를 학습해 사람의 선호를 흉내 내는 별도의 AI입니다. 이후 언어모델이 만든 응답을 자동으로 평가해, 사람이 선호하는 방향으로 언어모델을 재학습시키는 피드백 신호가 됩니다.

RLAIF는 RLHF와 어떻게 다른가요?

RLHF가 사람의 피드백에 의존하는 반면, RLAIF는 사람이 정한 헌법(원칙 모음)을 따르는 AI 피드백 모델이 순위를 매깁니다. 확장성이 높고 주관성과 편향이 줄며, 유용성을 유지하면서 무해성을 높이는 장점이 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗