AI VIDEO BRIEFING

Constitutional AI와 RLAIF 원리: 클로드가 헌법으로 스스로 학습하는 법

사람의 피드백(RLHF) 대신 AI가 스스로를 비평·수정하게 하는 Constitutional AI의 원리를 정리했다. 헌법 작성부터 자기비평·수정, 선호 모델 학습, RLAIF까지 클로드의 안전 학습 과정을 살펴본다.

출처: Sam Witteveen2023년 3월 20일AI 보조 요약

Constitutional AI: AI가 '헌법'으로 스스로를 교정하게 만드는 법 영상 대표 이미지

핵심 메시지

Constitutional AI는 사람이 일일이 라벨링하는 RLHF의 부담을 줄이기 위해, AI가 스스로의 답변을 비평하고 고치게 하는 방법이다.
"헌법(constitution)"은 사람이 작성한 원칙 모음으로, 무엇이 해롭거나 비윤리적·불법적인지 모델이 판단하는 기준이 된다.
학습은 자기비평·수정으로 데이터를 만들어 미세조정하는 지도학습 단계와, AI 피드백으로 점수를 매겨 강화학습하는 RLAIF 단계로 나뉜다.
앤스로픽이 만든 이 방식은 클로드(Claude)에 적용되었으며, 안전을 핵심 목표로 삼는 설계 철학을 보여준다.

쉽게 이해하기

이 영상은 앤스로픽의 논문 "Constitutional AI: Harmlessness from AI Feedback"의 핵심 개념을 설명한다. 사람의 피드백을 이용한 강화학습(RLHF)은 챗GPT 등을 크게 개선했지만, 사람이 직접 라벨을 달고 루프에 계속 개입해야 한다는 비용이 든다. 만약 모델이 그 일을 스스로, 혹은 소수의 모델끼리 해낼 수 있다면 훨씬 강력해진다는 것이 출발점이다.

핵심은 모델이 자기 답변을 비평(critique)하게 만드는 것이다. 먼저 사람이 "헌법"을 작성한다. 헌법은 "이 응답이 해롭거나 비윤리적·인종차별적·성차별적·위험하거나 불법인 지점을 구체적으로 찾아내라"처럼, 모델이 따라야 할 원칙을 담는다. 논문에서 제시한 헌법이 곧 실제 제품에 쓰이는 것은 아니지만, 사람이 가장 크게 기여할 수 있는 지점이 바로 이 원칙 정의라고 본다.

데이터를 만드는 과정은 이렇다. 먼저 무엇이든 답하는 "도움 위주" 모델에 "이웃의 와이파이를 해킹하는 법"처럼 유해한 프롬프트를 던지면 모델은 해로운 답을 내놓는다. 그 답을 같은 모델에 다시 넣어 헌법 기준으로 비평하게 하면 "이 응답은 사생활 침해이며 불법일 수 있어 해롭다"는 지적이 나온다. 이어 그 지적을 반영해 답을 다시 쓰게 하면, 행위를 권하지 않고 경고하는 수정본이 만들어진다. 이 (유해 프롬프트 + 수정본) 쌍으로 모델을 미세조정한다.

다음은 강화학습 단계다. 모델이 한 질문에 여러 답을 생성하게 한 뒤, 헌법에 비추어 어떤 답이 더 나은지 점수를 매기는 선호(scoring) 모델을 학습시킨다. 이 점수 모델을 이용하면 사람 피드백 없이 AI 피드백만으로 강화학습을 확장할 수 있는데, 이것이 RLAIF(AI 피드백 기반 강화학습)다. 그 결과 헌법을 따르는 "도움이 되면서도 해롭지 않은" 모델이 만들어진다.

앤스로픽은 GPT-3 이후 안전에 더 집중하려고 오픈AI를 떠난 사람들이 세운 곳이며, 이 방식은 클로드에 적용되었다. 영상은 "숲에 불을 피우는 법" 같은 질문에 클로드가 위험성을 짚으며 거절하는 모습을, 안전장치가 약한 옛 GPT-3가 곧장 방법을 알려주는 것과 비교해 보여준다. 흥미로운 점은 이 기법이 안전을 넘어, 모델이 스스로를 가르치게 하는 더 넓은 연구 방향으로 확장될 수 있다는 가능성이다.

주요 인사이트

사람의 역할이 "답마다 라벨 달기"에서 "원칙(헌법) 정의하기"로 옮겨간다는 점이 핵심이다. 확장성의 병목이던 인간 개입을 원칙 수준으로 끌어올린다.
같은 모델이 답변자이자 비평자·수정자 역할을 겸한다. 모델은 자기 답이 문제임을 비평할 능력은 있으나, 답하는 순간 즉석에서 그것을 적용하지 못한다는 관찰이 이 방식의 동기가 된다.
비평·수정 과정에 사고의 연쇄(chain of thought) 프롬프팅이 쓰여, 단순히 정답만 내놓기보다 결과와 도덕적 함의를 따져 더 나은 답을 만든다.

자주 묻는 질문

Constitutional AI에서 "헌법"이란 무엇인가요?

사람이 작성한 원칙 모음입니다. 어떤 응답이 해롭거나 비윤리적·불법적인지 모델이 스스로 판단하고 고칠 때 기준이 됩니다. 논문의 예시 헌법이 곧 제품에 그대로 쓰이는 것은 아닙니다.

RLHF와 RLAIF는 어떻게 다른가요?

RLHF는 사람이 답변을 비교·평가해 강화학습 신호를 줍니다. RLAIF는 헌법 기준으로 답을 채점하도록 학습된 모델, 즉 AI의 피드백으로 강화학습을 진행해 사람의 개입을 크게 줄입니다.

이 방식은 어떤 모델에 쓰였나요?

앤스로픽이 만든 클로드(Claude)에 적용되었습니다. 영상은 위험한 요청에 클로드가 위험성을 짚으며 거절하는 모습을, 안전장치가 약한 옛 모델과 비교해 보여줍니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗