AI VIDEO BRIEFING

딥시크(DeepSeek) 새 시각 추론 기법 — 시각 토큰 90% 줄이고 프런티어 모델 따라잡다

딥시크의 새 연구는 AI가 말로 묘사하는 대신 이미지를 직접 '가리키며' 사고하게 해, 시각 토큰을 90%가량 줄이면서도 최상위 모델과 맞먹는 정확도를 냈다.

출처: Two Minute Papers2026년 5월 22일AI 보조 요약

딥시크의 새 AI, '가리키며 생각하기'로 시각 추론을 바꾸다 영상 대표 이미지

핵심 메시지

딥시크의 새 기법은 AI가 이미지를 말로 길게 묘사하는 대신, 사람처럼 대상을 '가리키며(point)' 사고하도록 만든다.
사진 속 사람 수를 세는 것처럼 말로 풀면 오류가 잦고 사고 비용이 큰 작업을, 가리키는 방식으로 더 정확하고 빠르게 처리한다.
시각 토큰을 프런티어 모델 대비 약 90% 적게 쓰면서도 정확도는 수십억 달러급 시스템과 맞먹거나 능가했다.
미로 경로 추적처럼 사고 과정을 시각적으로 되짚을 수 있어, 결과뿐 아니라 '어떻게 그 답에 도달했는지'를 사람이 이해하고 오류를 찾기 쉽다.
이 연구는 모델이 아니라 방법을 설명한 무료·공개 '청사진'이라, 무료 모델을 포함한 기존 모델에 더해질 수 있다.

쉽게 이해하기

AI에 시각 기능이 있는 것 자체는 새롭지 않다. 많은 시스템이 이미 이미지나 영상을 입력으로 받는다. 그런데 딥시크의 이번 연구가 주목받는 이유는 'AI가 생각하면서 이미지를 직접 가리키게' 했다는 점이다. 사진 속 사람 수를 세야 할 때, 기존 방식은 '왼쪽 위에 사람들, 줄지어 선 무리…' 식으로 말로 묘사하다 헷갈리기 쉽다. 사람이라면 손가락으로 하나씩 짚어 세듯, 이 기법은 가리키며 사고해 더 정확하고 빠르다.

이 방식의 또 다른 장점은 위상적(topological) 추론이다. 시작점과 끝점이 있는 미로를 주면 정답뿐 아니라 사고 과정을 시각적으로 되짚을 수 있고, '왕관이 어디에 연결되는가' 같은 질문에도 답과 함께 그 근거를 보여 준다. 결과가 그저 숫자 더미로 나오는 게 아니라, 우리가 이해하고 검증할 수 있는 형태에 한 걸음 다가선 셈이다.

성능 면에서 이 기법은 프런티어 모델 대비 시각 토큰을 약 90% 적게 쓴다. 하지만 적게 생각한다고 답이 틀리면 의미가 없다. 정확도 면에서도 이 무료 시스템은 여러 벤치마크에서 수십억 달러급 시스템과 맞먹거나 능가했다. 발표자는 벤치마크 신뢰성도 짚는데, 일곱 개 벤치마크 평균을 내되 자기네 내부 벤치마크는 제외했다는 점을 높이 평가한다 — 자기에게 유리한 벤치마크를 만들어 1등 하는 흔한 수법을 쓰지 않았다는 것이다.

방법의 핵심은 '정책 증류(policy distillation)'다. 박스 그리기에 강한 모델, 점으로 미로를 추적하는 데 강한 모델처럼 서로 다른 전문가 모델들이 있을 때, 학생(student) 모델이 이들 교사로부터 배우게 한다. 학생이 먼저 시도하면 교사들이 '나라면 이렇게 했다'고 알려 주고, 이를 반복하면 학생은 다양한 종류의 시각적 사고에 두루 능숙해진다.

결론적으로 '더 높은 해상도, 더 많은 픽셀이 더 똑똑한 AI를 만든다'는 통념과 달리, 딥시크는 시각 토큰을 90% 줄이고도 프런티어 모델을 능가했다. 다만 한계도 분명하다. 이 '가리키며 사고하기'는 단어 단서가 있어야 작동하고, 풀잎이나 머리카락처럼 매우 가는 구조를 셀 때는 고해상도 정보가 없으면 약하며, 위상적 추론은 완전히 새로운 대상에는 잘 일반화되지 않을 수 있다.

주요 인사이트

'적은 것이 더 낫다(less is more)' — 무조건 해상도와 토큰을 늘리는 대신, 사람처럼 가리키며 사고하는 표현 방식이 효율과 정확도를 동시에 끌어올렸다.
사고 과정을 시각적으로 추적할 수 있다는 점은 정확도뿐 아니라 오류 진단과 모델 개선, 그리고 '이해 가능한 AI'라는 측면에서 가치가 크다.
자체 내부 벤치마크를 평가에서 제외했다는 점은 벤치마크 조작이 흔한 상황에서 결과의 신뢰성을 높이는 요소다.
모델이 아닌 방법을 공개한 무료 연구이기에, 무료 모델을 포함한 다양한 기존 모델에 적용될 여지가 있다.

자주 묻는 질문

'가리키며 생각한다'는 게 구체적으로 무슨 뜻인가요?

AI가 이미지를 말로 길게 묘사하는 대신, 사람이 손가락으로 짚듯 대상을 직접 가리키며 추론한다는 뜻입니다. 덕분에 사람 수 세기 같은 작업이 더 정확하고 빨라집니다.

기존 프런티어 모델보다 무엇이 나아졌나요?

시각 토큰을 약 90% 적게 쓰면서도 여러 벤치마크에서 최상위 모델과 맞먹거나 능가했고, 사고 과정을 시각적으로 되짚을 수 있어 오류를 찾기 쉽습니다.

한계는 없나요?

단어 단서가 있어야 이 방식이 작동하고, 머리카락처럼 가는 구조를 셀 때는 고해상도가 없으면 약하며, 위상적 추론은 완전히 새로운 대상에는 잘 일반화되지 않을 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗