AI VIDEO BRIEFING
GPT-5.5 vs DeepSeek V4 비교: 벤치마크·환각·컴퓨트 부족 정리
약 20시간 사이 공개된 OpenAI GPT-5.5와 중국 DeepSeek V4를 벤치마크·비용·환각률·사이버보안 관점에서 비교하고, 업계 전반의 컴퓨트 부족 문제를 짚는다.

핵심 메시지
쉽게 이해하기
영상은 약 20시간 사이에 등장한 두 모델, OpenAI의 GPT-5.5와 중국의 DeepSeek V4를 다룬다. 영상은 GPT-5.5를 'AI 왕좌가 Anthropic으로 넘어가는 것을 막으려는 OpenAI의 총력전'으로, DeepSeek V4를 그 둘 모두에 대한 중국의 응답으로 규정한다. GPT-5.5는 현재 API가 열려 있지 않아 대부분의 점수가 OpenAI 자가보고라는 점을 영상은 분명히 한다.
벤치마크 성적은 영역별로 크게 엇갈린다. 영상에 따르면 GPT-5.5는 SWE-bench Pro 같은 에이전트형 코딩에서 Opus 4.7과 Mythos preview에 뒤지지만, 에이전트형 터미널 코딩에서는 82.7%로 앞섰고, ARC AGI 2 패턴 인식에서는 Opus 계열을 더 낮은 비용으로 능가했다. 영상은 OpenAI 연구자 노엄 브라운의 말을 빌려 '토큰당·달러당 지능'이 핵심 지표가 되고 있다고 강조한다.
환각 문제도 비중 있게 다룬다. GPT-5.5는 까다로운 지식 질문에서 정답률(57%)이 가장 높았지만, 틀린 문제 가운데 86%를 '모른다'고 인정하지 않고 답을 지어냈다고 영상은 전한다. 같은 항목에서 Opus 4.7의 환각률은 36%, 안전장치 없는 원본 모델 Mythos는 정답률 71%에 환각률 약 21.7%로 보고된다.
DeepSeek V4는 오픈 웨이트 모델로 100만 토큰 컨텍스트를 지원하고, Pro 버전은 1.6조 파라미터의 전문가 혼합(MoE) 구조에서 약 490억 개만 활성화한다. 영상의 자체 벤치마크 Simple Bench에서 61.2%를 받아 Opus 4.7에 1~2% 차로 근접했으며, 비용은 약 10분의 1 수준이라고 한다. DeepSeek는 긴 문서·과학 논문 위주의 데이터로 장문 처리에 집중했고, 중국어 전문 업무 평가에서 높은 승률을 주장했다.
마지막으로 영상은 업계 전반의 컴퓨트 부족을 짚는다. DeepMind는 V4 Pro의 서비스 용량이 매우 제한적이라 밝혔고, Anthropic도 예상 밖 성공으로 연산 부족을 겪는다. OpenAI는 상대적 컴퓨트 우위를 자랑하면서도, 그렉 브록먼이 '컴퓨트 희소성 시대에 진입했다'고 인정했다고 전한다.
주요 인사이트
- 벤치마크가 영역마다 뒤집히는 현상은, 모델이 보편적 일반화보다 특정 도메인용 강화학습 환경에 크게 의존함을 시사한다.
- '정답을 많이 맞히는가'보다 '틀릴 때 모른다고 말하는가'가 실사용 신뢰성의 더 중요한 척도로 부상하고 있다.
- 성능을 절대치가 아니라 '달러당 성능'으로 보면, 저비용 오픈 웨이트 모델인 DeepSeek V4의 경쟁력이 두드러진다.
- 특화 데이터(중국어 전문 업무 등)가 단일 지능 축 가설을 능가한다는 점은, 언어·분야별 모델 선택이 실무에서 중요함을 보여준다.
- 컴퓨트 부족은 모델 성능만큼이나 '실제로 쓸 수 있는가'를 좌우하는 변수로, 인프라 투자 경쟁의 의미를 키운다.
자주 묻는 질문
GPT-5.5는 모든 벤치마크에서 가장 뛰어난가?
아니다. 영상에 따르면 에이전트형 터미널 코딩이나 ARC AGI 2 등에서는 앞섰지만, SWE-bench Pro 코딩과 Humanity's Last Exam 등에서는 Opus 4.7·Mythos 등에 뒤졌다. 성적은 도메인마다 엇갈린다.
DeepSeek V4의 가장 큰 강점은 무엇으로 소개되나?
100만 토큰의 긴 컨텍스트 지원과 약 10분의 1 수준의 낮은 비용이다. 영상은 비용 대비 성능과 비영어권 전문 업무에서의 경쟁력을 강점으로 든다.
GPT-5.5의 환각 문제는 어떻게 설명되나?
정답률 자체는 57%로 높지만, 틀린 문제 중 86%를 '모른다'고 하지 않고 답을 지어냈다고 영상은 지적한다. 같은 항목에서 Opus 4.7의 환각률은 36%였다.
컴퓨트 부족은 왜 중요하게 다뤄지나?
DeepMind는 V4 Pro 용량을 제한했고 Anthropic도 연산 부족을 겪으며, OpenAI조차 컴퓨트 희소성 시대 진입을 인정했기 때문이다. 연산 자원이 모델 가용성을 직접 좌우한다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗