AI VIDEO BRIEFING
Constitutional AI와 RLAIF 원리: 클로드가 헌법으로 스스로 학습하는 법
사람의 피드백(RLHF) 대신 AI가 스스로를 비평·수정하게 하는 Constitutional AI의 원리를 정리했다. 헌법 작성부터 자기비평·수정, 선호 모델 학습, RLAIF까지 클로드의 안전 학습 과정을 살펴본다.

핵심 메시지
쉽게 이해하기
이 영상은 앤스로픽의 논문 "Constitutional AI: Harmlessness from AI Feedback"의 핵심 개념을 설명한다. 사람의 피드백을 이용한 강화학습(RLHF)은 챗GPT 등을 크게 개선했지만, 사람이 직접 라벨을 달고 루프에 계속 개입해야 한다는 비용이 든다. 만약 모델이 그 일을 스스로, 혹은 소수의 모델끼리 해낼 수 있다면 훨씬 강력해진다는 것이 출발점이다.
핵심은 모델이 자기 답변을 비평(critique)하게 만드는 것이다. 먼저 사람이 "헌법"을 작성한다. 헌법은 "이 응답이 해롭거나 비윤리적·인종차별적·성차별적·위험하거나 불법인 지점을 구체적으로 찾아내라"처럼, 모델이 따라야 할 원칙을 담는다. 논문에서 제시한 헌법이 곧 실제 제품에 쓰이는 것은 아니지만, 사람이 가장 크게 기여할 수 있는 지점이 바로 이 원칙 정의라고 본다.
데이터를 만드는 과정은 이렇다. 먼저 무엇이든 답하는 "도움 위주" 모델에 "이웃의 와이파이를 해킹하는 법"처럼 유해한 프롬프트를 던지면 모델은 해로운 답을 내놓는다. 그 답을 같은 모델에 다시 넣어 헌법 기준으로 비평하게 하면 "이 응답은 사생활 침해이며 불법일 수 있어 해롭다"는 지적이 나온다. 이어 그 지적을 반영해 답을 다시 쓰게 하면, 행위를 권하지 않고 경고하는 수정본이 만들어진다. 이 (유해 프롬프트 + 수정본) 쌍으로 모델을 미세조정한다.
다음은 강화학습 단계다. 모델이 한 질문에 여러 답을 생성하게 한 뒤, 헌법에 비추어 어떤 답이 더 나은지 점수를 매기는 선호(scoring) 모델을 학습시킨다. 이 점수 모델을 이용하면 사람 피드백 없이 AI 피드백만으로 강화학습을 확장할 수 있는데, 이것이 RLAIF(AI 피드백 기반 강화학습)다. 그 결과 헌법을 따르는 "도움이 되면서도 해롭지 않은" 모델이 만들어진다.
앤스로픽은 GPT-3 이후 안전에 더 집중하려고 오픈AI를 떠난 사람들이 세운 곳이며, 이 방식은 클로드에 적용되었다. 영상은 "숲에 불을 피우는 법" 같은 질문에 클로드가 위험성을 짚으며 거절하는 모습을, 안전장치가 약한 옛 GPT-3가 곧장 방법을 알려주는 것과 비교해 보여준다. 흥미로운 점은 이 기법이 안전을 넘어, 모델이 스스로를 가르치게 하는 더 넓은 연구 방향으로 확장될 수 있다는 가능성이다.
주요 인사이트
- 사람의 역할이 "답마다 라벨 달기"에서 "원칙(헌법) 정의하기"로 옮겨간다는 점이 핵심이다. 확장성의 병목이던 인간 개입을 원칙 수준으로 끌어올린다.
- 같은 모델이 답변자이자 비평자·수정자 역할을 겸한다. 모델은 자기 답이 문제임을 비평할 능력은 있으나, 답하는 순간 즉석에서 그것을 적용하지 못한다는 관찰이 이 방식의 동기가 된다.
- 비평·수정 과정에 사고의 연쇄(chain of thought) 프롬프팅이 쓰여, 단순히 정답만 내놓기보다 결과와 도덕적 함의를 따져 더 나은 답을 만든다.
자주 묻는 질문
Constitutional AI에서 "헌법"이란 무엇인가요?
사람이 작성한 원칙 모음입니다. 어떤 응답이 해롭거나 비윤리적·불법적인지 모델이 스스로 판단하고 고칠 때 기준이 됩니다. 논문의 예시 헌법이 곧 제품에 그대로 쓰이는 것은 아닙니다.
RLHF와 RLAIF는 어떻게 다른가요?
RLHF는 사람이 답변을 비교·평가해 강화학습 신호를 줍니다. RLAIF는 헌법 기준으로 답을 채점하도록 학습된 모델, 즉 AI의 피드백으로 강화학습을 진행해 사람의 개입을 크게 줄입니다.
이 방식은 어떤 모델에 쓰였나요?
앤스로픽이 만든 클로드(Claude)에 적용되었습니다. 영상은 위험한 요청에 클로드가 위험성을 짚으며 거절하는 모습을, 안전장치가 약한 옛 모델과 비교해 보여줍니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗