AI VIDEO BRIEFING

RLHF 쉽게 설명: 사전학습·지도 미세조정·보상모델로 LLM을 정렬하는 원리

챗GPT 같은 거대 언어모델을 사람이 원하는 방식으로 정렬하는 RLHF의 원리를, 사전학습과 지도 미세조정의 맥락부터 보상모델과 손실함수까지 단계별로 풀어 설명한다.

출처: StatQuest with Josh Starmer2025년 5월 5일AI 보조 요약

RLHF 쉽게 이해하기: 사람의 선호로 거대 언어모델을 길들이는 방법 영상 대표 이미지

핵심 메시지

거대 언어모델 학습은 방대한 텍스트로 다음 토큰을 예측하게 하는 '사전학습'에서 시작하며, 이 단계만으로는 사용자가 원하는 방식과 '정렬되지 않은' 상태다.
정렬은 보통 두 단계로 이뤄진다. 사람이 만든 프롬프트-응답 쌍으로 학습하는 '지도 미세조정(SFT)'과, 사람의 선호를 활용하는 'RLHF'다.
SFT 데이터셋은 사람이 직접 만들어 비싸고 작기 때문에 과적합되기 쉽고, 학습하지 않은 새 프롬프트에는 잘 일반화되지 않는다.
RLHF의 핵심 아이디어는, 응답을 새로 작성하게 하는 대신 '어느 응답이 더 나은지' 선호만 고르게 해 더 크고 저렴한 데이터셋을 만드는 것이다.
이 선호 데이터로 보상모델을 학습시키면, 이상적 출력값을 미리 정의하지 않고도 모델 스스로 적절한 보상을 찾아내 원래 모델을 정렬할 수 있다.

쉽게 이해하기

RLHF(사람 피드백을 이용한 강화학습)는 거의 항상 챗GPT나 딥시크 같은 거대 언어모델을 학습시키는 데 쓰인다. 영상은 이를 이해하기 위해 먼저 언어모델을 처음부터 학습시키는 과정을 함께 설명한다. 가중치가 무작위인 미학습 모델에 '스탯퀘스트가 뭐야?'라고 물으면 '블라블라' 같은 무의미한 출력만 나온다.

학습의 첫 단계는 위키피디아 같은 거대 텍스트로 '다음 토큰'을 예측하도록 역전파로 훈련하는 것이다. 이를 '사전학습(pre-training)'이라 부르며, 결과물은 텍스트 조각의 다음 토큰을 잘 맞히는 사전학습 모델이다. 그러나 사람들은 위키피디아 문장 조각이 아니라 '~에 대해 알려줘' 같은 질문을 던지고 정중하고 유용한 답을 기대한다. 따라서 사전학습만 된 모델은 실제 사용 방식과 '정렬되지 않은' 상태다.

정렬은 두 단계를 거친다. 먼저 지도 미세조정(SFT)은 사람이 만든 프롬프트와 응답 쌍으로 역전파 학습해, 특정 프롬프트에 정중하고 유용하게 답하도록 만든다. 다만 이 데이터는 사람이 직접 만들어 비싸고 작기 때문에 과적합되기 쉽고, 학습에 없던 새 프롬프트에는 잘 일반화되지 않는다. 과적합을 해결하는 이상적 방법은 거대한 미세조정 데이터셋이지만 비용이 막대하다.

그래서 RLHF가 등장한다. 같은 프롬프트에 대해 모델이 소프트맥스 확률로 서로 다른 응답들을 생성하게 한 뒤, 응답 쌍마다 사람에게 '어느 쪽이 더 나은지' 고르게 한다. 응답을 새로 쓰게 하는 것보다 선호를 고르는 편이 훨씬 빠르고 저렴하며, 이 선호가 바로 '사람 피드백'이다. 목표는 SFT보다 훨씬 큰 데이터셋을, 사람 비용은 최소화하며 확보하는 것이다.

선호 데이터로는 보상모델을 학습시킨다. SFT를 거친 모델을 복사해 언임베딩 층을 단일 출력으로 바꾸면 보상을 계산하는 모델이 된다. 선호된 응답에는 양의 보상, 그렇지 않은 응답에는 음의 보상을 내도록 학습한다. OpenAI의 2022년 논문에서 쓴 손실함수는 '더 나은 응답의 보상'과 '나쁜 응답의 보상'의 차이를 시그모이드와 로그에 통과시키고, 경사하강이 원하는 방향으로 수렴하도록 부호를 뒤집은 구조다. 이렇게 학습된 보상모델로 원래 모델을 다시 훈련하면, 비싼 거대 SFT 데이터셋 없이도 새 프롬프트에 정중하고 유용하게 답하는 최종 정렬 모델을 얻는다.

주요 인사이트

사전학습은 '다음 토큰 예측'을 잘하게 만들 뿐, 사용자가 기대하는 대화 방식과는 본질적으로 어긋나 있다(정렬 문제).
RLHF의 비용 절감 통찰: 사람에게 '좋은 답을 써 달라'고 하는 대신 '둘 중 어느 게 낫냐'만 고르게 하면, 더 크고 저렴한 데이터셋을 빠르게 모을 수 있다.
보상모델은 SFT 모델을 복제한 뒤 언임베딩 층을 단일 출력으로 교체해 만들며, 프롬프트와 응답을 함께 입력받아 맥락에 맞는 보상을 계산한다.
손실함수의 시그모이드·로그·부호 반전은 '더 나은 응답엔 양수, 나쁜 응답엔 음수 보상'이라는 목표를 미리 지정하지 않고도 모델이 스스로 학습하게 한다.
정중함과 유용함이라는 추상적 기준조차, 사람의 선호 비교를 보상 신호로 바꾸면 모델 학습 목표로 환원할 수 있다는 점이 RLHF의 핵심이다.

자주 묻는 질문

사전학습된 모델이 '정렬되지 않았다'는 말은 무슨 뜻인가?

위키피디아 같은 텍스트로 다음 토큰을 예측하도록 학습됐을 뿐, 사람들이 실제로 던지는 질문에 정중하고 유용하게 답하는 방식과는 어긋나 있다는 의미다. 그래서 추가 정렬 과정이 필요하다.

RLHF는 왜 응답을 직접 쓰게 하지 않고 선호만 고르게 하나?

사람이 좋은 응답을 일일이 작성하는 것은 느리고 비싸다. 두 응답 중 어느 것이 나은지 고르는 편이 훨씬 빠르고 저렴해, 같은 비용으로 훨씬 큰 데이터셋을 만들 수 있기 때문이다.

보상모델은 어떻게 만들고 무엇을 학습하나?

지도 미세조정을 거친 모델을 복사한 뒤 언임베딩 층을 단일 출력으로 바꿔 만든다. 사람의 선호 데이터를 이용해 선호된 응답에는 양의 보상, 그렇지 않은 응답에는 음의 보상을 내도록 학습한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗