AI VIDEO BRIEFING

미란다 가설: AI 페르소나 평가가 놓치는 역사 왜곡 문제

역사 인물을 연기하는 AI는 유창하지만 자주 시대를 뒤섞는다. 한 데이터 과학자는 '미란다 가설'로 현재의 페르소나 평가가 유창함만 재고 사실 충실도는 못 잰다고 지적하며, 역사학자를 평가 루프에 넣는 새 측정 도구를 제안한다.

출처: AI Engineer2026년 6월 25일AI 보조 요약

AI가 흉내 낸 '뮤지컬 해밀턴': 페르소나 평가가 진짜 측정하는 것은 무엇인가 영상 대표 이미지

핵심 메시지

Character.AI 같은 역할극 언어 에이전트가 엔터테인먼트를 넘어 교육·시민 인프라로 제안되지만, 이를 평가하는 벤치마크는 '유창함'과 '성격 일관성'만 측정한다.
발표자는 이를 '미란다 가설'이라 부른다. 뮤지컬 '해밀턴'처럼 문화적으로 지배적인 표상이 학습 데이터를 압도해, AI가 실존 인물의 어느 시점과도 일치하지 않는 합성 페르소나를 만든다는 것이다.
설득력(유창함)과 충실도(기록 일치)는 서로 독립적인 속성이다. 성격 일관성에서 만점을 받아도 인물이 결코 가질 수 없던 지식으로 추론할 수 있다.
파인튜닝은 이 문제를 악화시킨다. 컨텍스트 윈도에 원문 문서를 넣어 '문서를 통해 말하게' 하는 방식이 감사 가능하고 접근성도 높다.
해결책은 '인식론적 시뮬레이션'이다. 1차 사료로 추론을 제한하고, 특정 시점에 고정하며, 도메인 전문가가 기록에 비추어 평가해야 한다.

쉽게 이해하기

발표자는 먼저 역할극 언어 에이전트(RPLA)가 무엇인지 보여준다. Character.AI나 'Hello History' 같은 플랫폼에서 수백만 명이 나폴레옹·클레오파트라·마르쿠스 아우렐리우스 같은 페르소나와 대화한다. 이런 시스템은 오락과 동반자 역할을 넘어 점점 교육·시민 인프라로 제안되고 있다. 그렇다면 우리가 만든 평가는 도대체 무엇을 재고 있는가가 이 강연의 출발점이다.

업계 표준인 '인-캐릭터' 벤치마크는 최신 시스템이 인간이 인지하는 성격과 80.7% 일치한다고 보고한다. 합격점처럼 보이지만 문제가 있다. 같은 고득점 시스템이 알렉산더 해밀턴을 연기하면, 마치 자기 자신을 다룬 브로드웨이 뮤지컬을 읽은 듯한 해밀턴이 나온다. 발표자의 핵심 주장은 이렇다. 지배적 실패 양상이 '시대착오적 합성'인데 평가가 유창함과 성격 일관성만 측정한다면, 그 평가는 가장 중요한 실패를 결코 잡아낼 수 없다.

강연은 노예제에 대한 해밀턴의 입장을 예로 든다. 모델은 그를 깔끔하고 도덕적으로 명료한 노예제 폐지론자로 그리지만, 실제 사료는 훨씬 복잡하고 논쟁적이다. 해밀턴은 해방협회 회원이었으나 동시에 노예 거래에 관여했고 노예 소유주 연합에 의존했다. 모델은 이 복잡성을 모두 깎아내 편안한 영웅상으로 만든다. 뮤지컬이 먼저 그렇게 했고, 그 뮤지컬로 포화된 코퍼스로 학습한 모델이 그 평탄화를 그대로 물려받는다.

'미란다 가설'은 세 부분으로 이뤄진다. 학습 데이터에서 문화적으로 지배적인 표상이 1차 사료를 압도하고(입력), 자기회귀 예측은 1789년 편지와 2019년 트윗을 구분할 능력 없이 둘을 함께 압축하며(메커니즘), 그 결과 유창하고 현대인에게 도덕적으로 명료하지만 인물의 어느 검증 가능한 시점과도 맞지 않는 합성 페르소나가 나온다(출력). 더 나아가 정렬(RLHF)은 이를 바로잡기는커녕 증폭한다. 평가자도 같은 신화화된 문화 속에서 자랐기에, 인간 선호 최적화가 '당신이 이미 믿는 해밀턴'을 보상하는 알고리즘적 아첨으로 이어지기 때문이다.

대안으로 발표자는 네 번째 단계인 '인식론적 시뮬레이션'을 제안한다. 페르소나의 추론을 특정 1차 사료로만 허가하고(코퍼스 한정), 특정 순간에 고정하며(시간 고정), 해당 분야 전문가가 사료에 비추어 평가한다(전문가 루프). 아키텍처상으로는 문서를 파라미터에 녹이는 파인튜닝 대신, 컨텍스트 윈도에 문서를 그대로 넣는 방식을 택한다. 그래야 출처가 보존되고 인간이 해석 권한을 유지하며 만남을 재현·감사할 수 있고, GPU 없이 문서와 무료 모델만으로도 누구나 만들 수 있어 접근성이 높다.

발표자는 결과가 아니라 '사전 등록된 측정 도구'를 들고 왔다고 강조한다. 프리즘이 백색광을 스펙트럼으로 분해하듯, 코퍼스와 시점 앵커로 합성 페르소나를 여러 시기의 인물로 분리한다. 실험 대상은 7년 사이 급격히 변한 링컨이며, 네 시점 × 세 조건(1차 사료·전기·맨몸 모델) = 12개 셀에 같은 다섯 질문을 던져 시대착오 탐지 40%·문서 일치 35%·맥락 타당성 25% 가중치로 채점한다. 핵심은 채점자가 LLM이나 성격 척도가 아니라 직접 질문과 루브릭을 만든 역사학자라는 점이다. 그는 청중에게 자신의 인물과 모델로 이 프로토콜을 함께 돌려보자고 초대하며 강연을 맺는다.

주요 인사이트

'마스크와 거울'의 구분이 강연 전체를 관통한다. 현재 평가는 '이 사람처럼 들리는가'(마스크)만 묻고 '이 인물이 그 시점에 알 수 있었는가'(거울)는 묻지 않는다.
정렬이 문제를 고치리라는 통념을 뒤집는다. 평가자의 머릿속 인물상 자체가 문화적으로 신화화되어 있어, 인간 선호 최적화가 오히려 합성을 강화한다.
엔지니어의 직관과 달리 파인튜닝이 더 나쁠 수 있다. 좁은 코퍼스 학습이 표면 왜곡은 줄이지만 기반 가중치 속 문화적 퇴적물과 뒤섞여 감사 불가능해지고, 의료 AI의 '파국적 망각' 연구가 이를 뒷받침한다.
컨텍스트 윈도 아키텍처에서 윤리적인 속성과 디버깅 가능한 속성은 동일하다. 출처 보존·인간의 해석 권한·가역성은 기록 보관의 미덕이자 곧 엔지니어링의 미덕이다.
전문가는 런타임 비용이 아니라 빌드·게이트 단계의 요구사항이다. 역사학자는 한 번 측정 도구를 만들어 파이프라인 게이트로 삼고, 자동 지표가 1차 선별을 맡으면 제품으로 확장된다.

자주 묻는 질문

'미란다 가설'이라는 이름은 어디서 왔나?

뮤지컬 '해밀턴'을 만든 린-마누엘 미란다에서 따왔다. 악역으로서가 아니라, 해밀턴이 문화적 표상이 사료 속 실제 인물을 대중의 기억과 학습 코퍼스에서 사실상 덮어써버린 대표 사례이기 때문이다.

왜 설득력과 충실도가 다른 속성이라고 하나?

유창하고 성격이 일관되게 들리는 것(설득력)과 그 추론이 인물의 실제 기록에 부합하는 것(충실도)은 별개다. 시스템은 성격 일관성에서 만점을 받으면서도 역사 속 인물이 결코 가질 수 없던 지식으로 추론할 수 있다.

왜 실험 대상으로 링컨을 골랐나?

방법론적 독립성과 난이도 때문이다. 링컨의 합성상은 뮤지컬이 아니라 영화·기념관·교과서가 만든 것이라 가설을 다른 종류의 사례로 검증할 수 있고, 그는 7년 사이 전쟁을 위헌이라 비판하던 휘그당원에서 행정명령으로 노예를 해방한 인물로 급변해 '어느 시점의 링컨인가'가 변수가 된다.

왜 평가에 도메인 전문가가 반드시 필요하다고 보나?

충실도는 출력만의 속성이 아니라 출력과 사료 사이의 관계이기 때문이다. 사료를 읽지 않은 자동 지표는 유창함과 성격만 판별할 뿐, 텍스트와 기록 사이의 간극에 존재하는 충실도를 구조적으로 평가할 수 없다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗