AI VIDEO BRIEFING

클로드 오퍼스 4.7 분석: 벤치마크 성과와 적응형 사고·컴퓨트 논란

AI Explained가 클로드 오퍼스 4.7의 벤치마크 성적과 적응형 사고 기본값, 컴퓨트 부족 논란, 앤트로픽과 오픈AI의 오랜 경쟁 구도를 정리한다. 모델 능력을 하나의 지표로 재기 어렵다는 점을 짚는다.

클로드 오퍼스 4.7 공개 — 벤치마크 호평과 논란이 함께 왔다 영상 대표 이미지

핵심 메시지

  • 오퍼스 4.7은 대부분 벤치마크에서 4.6을 앞서지만, 적응형 사고 때문에 상식형 함정 문제(SimpleBench)에서는 오히려 점수가 내려갔다.
  • 일부 영역은 제미나이에 뒤지고(훨씬 싼 제미나이 3 플래시가 OCR에서 앞섬), 사이버 취약점 재현 능력은 앤트로픽이 의도적으로 낮췄다고 시스템 카드에 적었다.
  • 컴퓨트 부족 논란 속에 확장 사고가 ‘적응형’으로 강제되고 기본 노력 수준이 medium으로 바뀌었다는 지적이 나왔다.
  • 앤트로픽이 4배 생산성 향상의 근거로 든 미토스(Mythos) 설문은 옵트인 표본의 비과학적 조사였다고 영상은 비판한다.
  • 다리오 아모데이와 그렉 브록만의 9년에 걸친 개인적 경쟁이 오퍼스 4.7과 코덱스 대결의 배경에 깔려 있다.

쉽게 이해하기

공개 24시간도 지나지 않은 클로드 오퍼스 4.7을 두고 AI Explained는 벤치마크 성과와 논란을 함께 짚는다. 대부분의 표준 벤치마크에서 4.7은 4.6을 앞서지만, 일반에 공개되지 않은 ‘미토스 프리뷰’에는 못 미치는 경우가 많다.

4.7은 과제가 쉽다고 판단하면 사고 시간을 줄이는 ‘적응형 사고’를 한다. 그 탓에 상식이 필요한 함정 문제로 구성된 SimpleBench에서는 4.6보다 낮은 점수를 받았다. 또 밀집한 화면 탐색은 더 잘하지만 종합 OCR 테스트에서는 10배 이상 저렴한 제미나이 3 플래시에 평균적으로 뒤졌고, 사이버 취약점 재현 능력은 앤트로픽이 학습 단계에서 의도적으로 낮췄다고 시스템 카드 48쪽에 밝혔다.

발표자는 컴퓨트 부족 논란을 핵심으로 짚는다. 오픈AI에 유출됐다는 메모는 앤트로픽이 충분한 컴퓨트를 확보하지 못한 전략적 실수를 했고 그것이 제품의 스로틀링·가용성 저하로 드러난다고 주장한다. 실제로 확장 사고가 적응형으로 강제됐고, 기본 노력 수준이 medium으로 바뀌어 “너프됐다”는 지적이 나왔다.

앤트로픽이 내부 설문으로 제시한 ‘4배 생산성 향상’에 대해 영상은 강하게 회의한다. 질문이 ‘지난주 산출물이 얼마나 늘었는가’였고(품질이나 절약 시간이 아님) 무작위가 아닌 관심 기반 옵트인 표본이라, 미토스를 많이 쓴 사람들이 과대 응답했을 가능성이 크다는 것이다. 또 미토스 인스턴스에 내부 슬랙을 열어 본 결과, 정렬성 평가가 실시간 압박 속에 급히 수행됐다는 정황도 드러났다.

영상은 두 회사의 9년에 걸친 개인적 경쟁으로 마무리한다. 다리오 아모데이와 그렉 브록만의 갈등이 오퍼스 4.7과 코덱스의 대결로 이어졌고, 브록만은 오픈AI가 추상적 코딩 대회에 베팅한 반면 앤트로픽은 지저분한 실제 코드베이스에 데이터를 맞췄음을 뒤늦게 인정했다고 전한다.

주요 인사이트

  • 프런티어에서는 벤치마크 공급 자체가 병목이라, 모델의 ‘IQ’나 초지능을 향한 진척을 하나의 보편 지표로 말하기 점점 어려워진다.
  • 미토스의 보안 성과는 ‘한 연구소가 마법 모델을 가졌다’기보다, 취약점 탐지의 경제성이 싸졌다는 신호로 읽어야 한다는 외부 보안 연구소의 평가가 인용된다.
  • 클로드의 폭발적 성공이 역설적으로 컴퓨트 확보 부족이라는 아킬레스건을 드러냈다는 분석이다.
  • 안전성 평가조차 경쟁 압박 속에서 쫓기듯 수행됐음을, 평가 대상이던 미토스 인스턴스가 내부 슬랙을 읽고 스스로 지적했다.
  • 벤치마크는 ‘중립을 표방하지만’ 데이터에 따라 결과가 달라지므로, 어떤 출처·어떤 측정인지를 가려 봐야 한다.

자주 묻는 질문

적응형 사고가 점수에 어떤 영향을 줬나?

오퍼스 4.7은 과제가 쉽다고 판단하면 사고 시간을 줄이는데, SimpleBench의 함정 문제를 실제보다 쉽게 여겨 4.6보다 낮은 점수를 받았다.

미토스 설문의 문제는 무엇인가?

질문이 ‘지난주 산출물이 얼마나 늘었는가’였고 품질이나 절약 시간을 묻지 않았으며, 무작위 표본이 아니라 관심 기반 옵트인이라 미토스를 많이 쓴 사람들이 과대 응답했을 가능성이 크다고 영상은 지적한다.

클로드 코드에는 어떤 신기능이 소개됐나?

노트북을 켜두지 않아도 일정에 맞춰 프롬프트를 실행하는 routines 리서치 프리뷰, ultra review 명령, 휴대폰에서 작업을 맡기면 데스크톱 앱이 로컬에서 실행하는 dispatch 등이 소개됐다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#클로드 오퍼스 4.7#앤트로픽#오픈AI#AI 벤치마크#미토스