AI VIDEO BRIEFING

딥시크 V4 분석: 100만 토큰 컨텍스트·3단계 압축·무료 오픈 가중치 AI의 의미와 한계

58쪽 논문으로 공개된 딥시크 V4는 100만 토큰 컨텍스트와 3중 압축으로 KV 캐시 메모리를 약 90% 줄였다. 무료 오픈 가중치 모델의 성능과 분명한 한계를 함께 정리한다.

출처: Two Minute Papers2026년 5월 6일AI 보조 요약

무료 오픈 AI 딥시크 V4: 3중 압축으로 KV 캐시 메모리를 90% 줄이다 영상 대표 이미지

핵심 메시지

딥시크 V4는 58쪽 논문과 함께 공개된 오픈 가중치 모델로, 100만 토큰 컨텍스트를 무료로 제공한다.
프로 모델은 몇 달 전 수십억 달러 규모 프런티어 모델과 대등하면서도 이전보다 연산량이 약 3배 적다.
토큰 압축·고압축 어텐션(128:1)·압축 희소 어텐션의 3중 압축으로 KV 캐시 메모리를 약 90% 줄였다.
8개 사실을 긴 문맥에 숨긴 테스트에서 프로 버전은 제미나이 3.1 프로보다 더 잘 회상했다.
단, 이미지·오디오를 다루지 못하는 단일 모달이고 컨텍스트 한계에 가까워지면 성능이 저하된다.

쉽게 이해하기

두 줄 논문(Two Minute Papers) 채널은 58쪽 분량의 연구 논문으로 공개된 딥시크 V4를 소개한다. 진행자가 가장 놀란 지점은 오픈 가중치 모델인데도 100만 토큰 컨텍스트 윈도를 제공한다는 점이다. 약 1,500쪽의 빽빽한 문서를 한 번에 집어넣을 수 있는데, 이는 얼마 전까지 구글 제미나이의 핵심 기능이었던 것을 이제 무료로 쓸 수 있게 됐다는 의미다. 프로 모델은 몇 달 전의 수십억 달러급 프런티어 모델과 대략 맞먹고, 더 작은 플래시 모델도 프로와 어느 정도 경쟁한다. 게다가 새 프로 모델은 이전 대비 약 3배, 플래시 모델은 약 10배 적은 연산량을 요구한다.

이런 효율의 비결은 KV 캐시(프롬프트와 문서를 적어두는 일종의 메모장)에 대한 세 가지 압축이다. 첫째는 토큰 수준 압축으로, 각 문단을 한 문장으로 요약하듯 줄여 검색을 빠르게 한다. 둘째는 128 대 1 비율의 '고압축 어텐션'으로, 책의 목차처럼 전체 줄거리를 한눈에 파악하게 한다. 셋째는 '압축 희소 어텐션'으로, 색인처럼 특정 내용이 어디 있는지 상위 위치를 짚어준다. 요약·구조·색인의 3중 압축이 맞물리면서 KV 캐시 메모리 요구량을 약 90% 줄였다. 다만 진행자는 이것이 KV 캐시 압축일 뿐 모델 전체는 여전히 메모리에 올려야 하므로, 프로 모델을 저사양 기기에서 통째로 돌릴 수 있다는 뜻은 아니라고 분명히 한다.

성능 검증으로는 점점 더 긴 문맥 속에 8개의 사실을 숨겨두고 회상시키는 테스트를 했는데, 프로 버전이 구글의 주력 제품인 제미나이 3.1 프로보다 더 잘 찾아냈다고 보고된다. 다만 다른 시스템들처럼 컨텍스트 윈도의 한계에 다가가면 모델이 잊고, 표류하고, 환각을 일으키는 저하가 나타난다. 코딩 능력도 뛰어나 자바스크립트 코드를 만들어 바로 붙여넣어 실행하기 쉽고, 일부는 딥시크 창 안에서 한 번의 클릭으로 실행도 된다. 가격은 할인 여부에 따라 앤트로픽 클로드보다 약 30배까지, 할인이 없어도 8~20배가량 저렴하다.

진행자는 과장된 헤드라인에서 빠진 한계도 짚는다. 첫째, 이 시스템은 단일 모달이라 이미지나 오디오는 다루지 못한다. 텍스트만 처리하므로 '눈과 귀가 없는' 셈이다. 둘째, 시스템은 만든 이들조차 완전히 이해하지 못한다. 훈련을 안정화하는 두 기법이 왜 작동하는지 스스로도 확신하지 못한다고 밝혔는데, 진행자는 그 투명성에 오히려 경의를 표한다. 셋째, 컨텍스트 한계 부근에서는 성능이 무너진다. 그럼에도 그는 이것이 오픈·무료 AI에서 작지 않은 진전이라고 평가한다. 또한 매번 사실을 처음부터 다시 계산하지 않고 회상하는 'engram' 기법, 671억(671B) 파라미터의 전체 모델을 GPU 클라우드에서 빠르게 구동하는 사례도 함께 언급한다.

주요 인사이트

오픈 가중치 모델이 100만 토큰 컨텍스트를 무료로 제공한다는 것은, 한때 최상위 상용 모델의 차별점이 빠르게 보편화됨을 보여준다.
효율의 핵심은 모델 자체가 아니라 KV 캐시를 요약·구조·색인의 3단계로 압축해 메모리를 약 90% 줄인 데 있다.
KV 캐시 압축은 모델 전체를 작게 만드는 것이 아니므로, '저사양 기기에서 통째로 구동' 같은 과장과는 구분해야 한다.
긴 문맥 회상에서 주력 상용 모델을 앞서더라도, 컨텍스트 한계 부근의 성능 저하는 여전히 공통된 약점이다.
만든 이들조차 안정화 기법의 원리를 완전히 알지 못한다는 점은, 현재 대형 AI의 상당 부분이 경험적으로 작동함을 드러낸다.

자주 묻는 질문

딥시크 V4의 컨텍스트 윈도는 얼마나 되나요?

100만 토큰입니다. 약 1,500쪽 분량의 빽빽한 문서를 한 번에 처리할 수 있으며, 오픈 가중치 모델로 무료 제공된다는 점이 특징입니다.

KV 캐시 메모리를 어떻게 90%나 줄였나요?

세 가지 압축을 결합했습니다. 문단을 한 문장으로 줄이는 토큰 수준 압축, 목차처럼 전체를 보는 128 대 1의 고압축 어텐션, 색인처럼 위치를 짚는 압축 희소 어텐션이 맞물려 약 90% 절감을 달성했습니다.

이 모델을 저사양 기기에서 돌릴 수 있나요?

아닙니다. 압축은 KV 캐시에 적용된 것이며 모델 전체는 여전히 메모리에 올려야 합니다. 따라서 프로 모델을 저사양 기기에서 통째로 구동할 수 있다는 의미는 아닙니다.

딥시크 V4의 주요 한계는 무엇인가요?

이미지·오디오를 다루지 못하는 단일 모달이라는 점, 만든 이들조차 훈련 안정화 기법의 원리를 완전히 이해하지 못한다는 점, 그리고 컨텍스트 한계에 가까워지면 성능이 저하된다는 점입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗