AI VIDEO BRIEFING

Claude Fable 5 리뷰 — 성능·가격·벤치마크와 한계 총정리

Anthropic이 공개한 최신 모델 Claude Fable 5를 코딩·게임·교육 콘텐츠 제작으로 실사용 테스트하고, 1M 토큰·가격·할루시네이션·안전 제한까지 짚어본 리뷰 영상 정리.

출처: AI Search2026년 6월 11일AI 보조 요약

Anthropic의 새 최강 모델 'Claude Fable 5' 실사용 리뷰: 압도적 코딩 능력과 분명한 한계 영상 대표 이미지

핵심 메시지

Claude Fable 5는 영상 진행자의 테스트에서 숨은 개구리 찾기, 처음부터 작성한 레이트레이싱 시뮬레이션, 지구 디지털 트윈 등 까다로운 과제를 대부분 한두 번의 프롬프트로 해냈다.
코드 수정 후 브라우저에서 스스로 검증·재수정하기 때문에 오류는 적지만 토큰 소모가 매우 크다.
벤치마크에서 SWEBench 등 다수 항목 1위지만, Livebench 4위·벤딩벤치 9위처럼 순위가 낮은 항목도 있고 할루시네이션 비율은 높은 편으로 보고됐다.
출력 100만 토큰당 50달러로 가장 비싸고 속도도 느려, 진행자는 '대부분의 일상 작업에는 과한 선택'이라고 평가했다.
일반 사용자에게 제공되는 Fable 5는 사이버보안·생물·화학 관련 질문을 거부하고 Opus 4.8로 전환되는 강한 안전 제한이 걸려 있다.

쉽게 이해하기

이 영상은 Anthropic이 내놓은 최신 플래그십 모델 Claude Fable 5를 직접 써보며 강점과 약점을 점검한다. 진행자는 과거 '너무 위험해 공개하지 않았다'던 Mythos 프리뷰보다도 강력하다고 소개하며, 먼저 어떤 AI도 맞히지 못했다는 '사진 속 숨은 개구리 찾기' 테스트를 던진다. Fable 5는 이미지를 사분면으로 나눠 구역별로 확대·탐색한 끝에 개구리 위치를 정확히 찾아 원으로 표시한 최초의 모델이 됐다고 한다.

핵심 강점은 에이전트형 코딩이다. 무료 Claude Code 데스크톱 앱에서 외부 라이브러리(3JS) 없이 처음부터 레이트레이싱 시뮬레이션을 두 번의 프롬프트로 완성했고, 국가에 마우스를 올리면 면적·인구·GDP가 뜨고 구름·항공 교통·낮밤 토글까지 되는 '지구 디지털 트윈'을 단 한 번의 프롬프트로 만들어냈다. 매 단계마다 결과를 브라우저에서 스스로 검증하고 오류를 고치는 점이 인상적이지만, 그만큼 토큰을 많이 쓴다고 지적한다.

다만 모든 과제에서 완벽하지는 않았다. 참조 이미지를 보고 3D 사무실 장면을 재구성하는 테스트는 책상 정렬이 어긋나 '실패'로 봤고(다만 GPT 5.5보다는 일관됐다고 평가), DAW에서 32마디 곡을 작곡하는 테스트도 자동 패닝·오토메이션이 빠진 '프로급은 아닌' 결과였다. 반면 3JS 기반 3인칭 슈팅 게임과 인터랙티브 고교 화학 강의 제작은 한 번의 프롬프트로도 꽤 완성도 높게 해냈다.

벤치마크와 사양도 정리한다. 진행자에 따르면 Fable 5는 다수 항목에서 Opus 4.8·GPT 5.5·Gemini 3.1 Pro를 큰 폭으로 앞서고 Artificial Analysis 기준 1위(지능 지수 65)다. 100만 토큰 컨텍스트(약 70만 단어)를 지원하지만 속도는 매우 느리다. 가격은 출력 100만 토큰당 50달러로 GPT 5.5(30달러)·Opus(25달러)의 두 배 수준이며, 할루시네이션 비율은 Opus 4.8은 물론 일부 오픈 모델보다도 높게 나타났다. Livebench 4위, 1년간 자판기 사업을 운영하는 벤딩벤치에서는 9위에 그쳤다.

마지막으로 영상은 '너프(제한)' 문제를 강조한다. Fable 5는 사실상 Mythos 5와 같은 기반 모델에 안전장치를 더 얹은 형태로, 사이버보안·생물·화학·증류(distillation) 관련 질문에는 답하지 않고 Opus 같은 모델로 전환된다. 진행자는 비싸고 느려 자신은 자주 쓰지 않을 것이며, 다른 모델이 못 잡는 숨은 버그를 잡는 '최후의 수단' 정도로만 쓰겠다고 결론짓는다.

주요 인사이트

자동 검증 루프는 양날의 검이다 — 스스로 결과를 확인·수정해 오류가 줄지만 토큰 비용이 크게 늘어, 비용 민감한 작업에는 부담이 된다.
벤치마크 1위가 전 영역 1위를 뜻하지는 않는다. 같은 모델도 코딩·지시 따르기(Livebench), 장기 사업 운영(벤딩벤치)에서는 순위가 크게 떨어졌다.
안전 제한이 강하면 의료·생물 같은 분야에선 사실상 쓸 수 없다 — 일반 공개판 Fable 5는 해당 질문을 거부하고 다른 모델로 넘긴다.
최고 성능과 실사용 가치는 별개다. 진행자는 일상 작업 대부분은 더 싸고 빠른 GPT 5.5(Codex)로 충분하다고 봤다.
Stripe가 5천만 줄 코드베이스의 전면 마이그레이션을 하루 만에 끝냈다는 사례처럼, 장기·복잡 과제에서 진가가 드러난다고 소개된다.

자주 묻는 질문

Claude Fable 5의 가격은 다른 모델과 비교해 어느 정도인가요?

영상에 따르면 출력 100만 토큰당 50달러로, GPT 5.5(30달러)와 Claude Opus(25달러)보다 비쌉니다. Opus의 약 두 배 수준으로 가장 비싼 모델로 소개됩니다.

Fable 5는 모든 질문에 답하나요?

아닙니다. 일반 사용자용 Fable 5는 사이버보안·생물·화학·증류 관련 질문을 거부하고 Opus 4.8 같은 모델로 자동 전환됩니다. 의료 진단 같은 요청도 응답하지 않는다고 합니다.

컨텍스트 길이와 속도는 어떤가요?

100만 토큰 컨텍스트(약 70만 단어)를 지원하지만, 영상에서는 간단한 프롬프트도 완료까지 몇 분씩 기다려야 할 만큼 매우 느리다고 평가합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗