AI VIDEO BRIEFING

DPO 직접 선호 최적화란 — 보상 모델·강화학습 없이 사람 선호로 LLM 미세조정하기

RLHF는 강력하지만 보상 모델 학습과 강화학습이 비싸고 불안정하다. DPO는 보상 모델을 건너뛰고 간단한 교차 엔트로피 손실로 선호 데이터에서 바로 미세조정하는 방법으로, RLHF와 수학적으로 동등하다.

보상 모델 없이 사람 선호로 LLM을 길들인다 — 직접 선호 최적화(DPO) 영상 대표 이미지

핵심 메시지

  • 사전학습만 마친 LLM은 사람이 원하는 형태로 답하지 않을 때가 많아, 대화체·유용함·혐오 표현 회피 등을 가르치려면 사람 피드백으로 미세조정해야 한다.
  • 표준 방식인 RLHF는 보상 모델을 따로 학습한 뒤 강화학습으로 LLM을 조정하는데, 보상 모델이 크고 강화학습이 비싸며 학습이 불안정하다는 단점이 있다.
  • DPO(직접 선호 최적화)는 보상 모델을 아예 없애고, 선호된 답변의 확률은 높이고 덜 선호된 답변의 확률은 낮추는 간단한 교차 엔트로피식 손실로 바로 학습한다.
  • 저자들은 DPO의 손실 함수가 RLHF와 수학적으로 동등함을 보였고, GPT-4 심사로 측정한 실험에서 DPO가 고전 RLHF보다 더 나은 승률을 보였다.
  • DPO는 라벨이 붙은 긍정·부정 쌍이 필요하다는 한계가 있지만, 보상 모델이 없어 더 빠르고 학습이 더 안정적이다.

쉽게 이해하기

사전학습을 마친 LLM은 인터넷 텍스트의 뒷부분을 지우고 이어 쓰게 하는 자기지도 방식으로 배운다. 그래서 온갖 주제를 말할 수 있지만 우리가 원하는 방식으로 답하지는 않는다. '아인슈타인은 언제 태어났나?'라는 질문에 '1879년'이라 답할 수도 있지만, 질문 뒤에 또 다른 질문이 이어지는 것도 그럴듯한 문장이라 되묻기로 응답할 수도 있다. 대화 형식, 도움이 되는 답변, 혐오·차별 표현 회피 같은 행동을 익히려면 사람 피드백으로 추가 학습해야 한다.

가장 흔한 방법이 사람 피드백 기반 강화학습(RLHF)이다. 네 단계로 이뤄진다. (1) 문장을 이어 쓰도록 학습한 기본 LLM을 준비하고, (2) LLM이 여러 질문에 답변 쌍을 만들면 사람이 품질 순으로 순위를 매기며, (3) LLM의 복사본이 사람 평가를 모방하는 보상 모델로 학습하고, (4) 마지막으로 LLM이 보상 모델의 피드백을 받아 높은 점수의 출력을 내도록 학습하되 원래 모델에서 너무 멀어지지 않도록 제약한다.

이 마지막 제약이 중요하다. 모델이 원본에서 크게 벗어나면 보상 모델을 속이는 '보상 해킹'이 일어난다. 어쩌다 높은 점수를 받는 이상한 문장을 반복하면서 기존의 유용한 지식을 잊어버리는 식이다. RLHF는 널리 쓰이고 잘 작동하지만, 보상 모델 학습이 불안정하고 그 보상 모델이 보통 원본 LLM의 복사본이라 크고 비싸다는 약점이 있다.

DPO의 발상은 보상 모델을 쓸모없게 만드는 것이다. LLM이 사람이 선호한 답변의 확률을 직접 높이고 덜 선호된 답변의 확률을 낮추도록 학습하면 되기 때문이다. 절차는 (1) LLM을 학습하고, (2) 답변 쌍을 만들어 사람이 더 나은 쪽을 긍정, 못한 쪽을 부정으로 표시하고, (3) 긍정에는 높은 확률, 부정에는 낮은 확률을 부여하는 비교적 단순한 교차 엔트로피 기반 손실로 학습하되 원본 생성 모델에서 너무 멀어지지 않도록 제약한다. RLHF의 보상 모델링 단계를 통째로 건너뛰는 것이다. 저자들은 이 손실이 RLHF와 수학적으로 동등함을 증명했다.

그렇다면 왜 처음부터 이 방법이 아니라 RLHF가 나왔을까. 영상은 두 가지 추측을 든다. 첫째, 사람의 평가 점수는 LLM의 출력(단어 토큰)과 종류가 달라, 모델 출력과 정답을 직접 비교하는 통상의 자기지도 손실을 계산할 수 없다. 미분 불가능한 손실에서도 학습을 가능케 하는 강화학습 기법이 자연스러운 선택이었다는 것이다. 둘째, DPO는 라벨이 붙은 긍정·부정 쌍이 있어야 하지만, RLHF의 보상 모델은 한 번 학습하면 라벨 없는 데이터에 무한정 점수를 매길 수 있다. 다만 실제로는 사람 데이터셋 자체가 코딩·수학·혐오 표현 회피 등 여러 측면을 폭넓게 담을 만큼 커야 했다.

성능은 어떨까. 저자들은 60억 파라미터 GPT-J를 IMDb 감성 생성과 TL;DR 요약 데이터셋에서 DPO와 고전 RLHF로 각각 학습하고, GPT-4를 심사위원으로 삼아 사람이 쓴 요약 대비 승률을 추정했다. 그 결과 DPO가 RLHF보다 앞섰다. 28억 파라미터 Pythia 모델을 Anthropic HH 데이터셋에서 학습한 실험도 잘 작동했다. 대학 연구실 사정상 더 큰 모델까지 검증하지 못한 점은 아쉽지만, 코드를 공개해 라마 2·Zephyr 같은 최신 모델에 빠르게 적용됐다. 결론적으로 DPO는 보상 모델이 없어 더 빠르고, 저자들 말이 맞다면 더 안정적인 대안이다.

주요 인사이트

  • DPO의 핵심 통찰은 '언어 모델이 곧 숨은 보상 모델'이라는 것이다 — 별도의 보상 모델을 학습하지 않아도 LLM 자신의 확률 분포로 선호를 직접 표현할 수 있다.
  • RLHF가 먼저 등장한 이유는 사람의 평가가 모델의 토큰 출력과 종류가 달라 손실을 직접 미분할 수 없었기 때문으로, 강화학습은 그 미분 불가능성을 우회하는 도구였다.
  • 원본 모델에서 너무 멀어지지 않도록 하는 제약은 RLHF든 DPO든 공통으로 중요하다. 이 제약이 없으면 보상 해킹으로 기존 지식을 잊는 붕괴가 일어난다.
  • DPO가 RLHF와 수학적으로 동등하다는 증명은, 복잡하고 불안정한 파이프라인을 단순한 교차 엔트로피 손실 하나로 대체할 수 있음을 보여준다.

자주 묻는 질문

사전학습된 LLM을 사람 피드백으로 또 학습하는 이유는?

사전학습만 끝낸 모델은 그럴듯한 문장을 잇지만 우리가 원하는 방식으로 답하지 않을 때가 많다. 대화체, 유용한 답변, 혐오·차별 표현 회피 등을 가르치려면 사람 피드백 미세조정이 필요하다.

RLHF는 어떤 단계로 작동하나?

기본 LLM 준비 → LLM이 만든 답변 쌍을 사람이 순위 매김 → 그 평가를 모방하는 보상 모델 학습 → 보상 모델 피드백으로 LLM이 높은 점수 출력을 내도록(원본에서 너무 벗어나지 않게) 학습하는 네 단계다.

DPO는 RLHF와 무엇이 다른가?

DPO는 보상 모델과 강화학습을 모두 없애고, 선호된 답변의 확률은 높이고 덜 선호된 답변의 확률은 낮추는 단순한 교차 엔트로피식 손실로 바로 학습한다. 보상 모델링 단계를 통째로 건너뛴다.

DPO가 RLHF만큼 잘 작동한다는 근거는?

60억 GPT-J를 IMDb·TL;DR 데이터셋에서 두 방식으로 학습해 GPT-4 심사로 승률을 비교한 결과 DPO가 앞섰고, 28억 Pythia를 Anthropic HH에서 학습한 실험도 잘 작동했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#DPO#RLHF#LLM정렬#미세조정#사람피드백