AI VIDEO BRIEFING

AI 에이전트 통신: 영어 대신 잠재공간 공유로 수학 정답률 73→86%

여러 AI 에이전트가 문장 대신 디코딩하지 않은 숫자(잠재 상태)를 직접 주고받자 같은 연산으로 더 좋은 답을 얻었다는 연구를, 쉬운 비유로 풀어 소개한다.

출처: Two Minute Papers2026년 6월 19일AI 보조 요약

AI 에이전트, 영어 대신 '생각'을 직접 주고받자 수학 정답률이 뛰었다 영상 대표 이미지

핵심 메시지

인터넷에서 활동하는 AI 에이전트 수가 전례 없는 속도로 늘고 있지만, 기술은 아직 거칠고 특히 여러 에이전트가 함께 일할 때 조율이 어렵다.
보통 에이전트들은 사람처럼 영어 문장으로 소통하는데, 이 연구는 문장·토큰을 거치지 말고 디코딩하지 않은 원시 숫자(잠재 상태)를 다음 에이전트에게 그대로 넘기자고 제안한다.
이 '에이전트 간 잠재 상태 전이' 방식으로 경쟁 수준의 수학 문제 정답률이 73%에서 86%로 올랐고, 토큰 사용량은 75% 줄었다.
100억 파라미터 미만의 작은 모델로 효과를 봤고, 학습 비용은 약 4달러에 불과했다.
통제 실험에서 같은 '교사 모델'을 다른 구조에 줘도 이 방식이 더 좋았다 — 단순 증류(distillation) 덕이 아니라 구조 자체의 효과로 확인됐다.

쉽게 이해하기

채널은 인터넷에 풀리는 AI 에이전트가 미친 속도로 늘고 있다고 짚는다. 항공권을 가장 싸게 예약하고, 하루 24시간 일정을 관리하고, 보험 청구를 넣고, 코드의 취약점을 끊임없이 점검·패치하는 등 약속은 매력적이다. 하지만 동시에 스팸, 보안 문제, 시스템 붕괴 같은 부작용도 함께 따라온다. 특히 에이전트가 하나가 아니라 여럿일 때 문제가 커진다.

예로 휴가를 짜는 두 에이전트를 든다. 항공 담당이 실제 목적지에서 640km 떨어진 더 싼 공항을 환각하고, 호텔 담당은 '근처에 더 싼 곳을 잡자'며 환불 불가 객실을 예약한다. 결국 가보지도 못할 환불 불가 방만 남는다. 이런 문제 상당수는 에이전트 간 '조율'이 매우 어렵다는 데서 온다.

흔한 다중 에이전트 구성은 한 에이전트가 계획을 세우고, 다음이 비판하고, 또 다른 하나가 문제를 푸는 식이다. 새로울 게 없어 보이지만 핵심은 '어떻게 소통하느냐'다. 대부분의 에이전트는 사람처럼 영어 문장으로 대화하는데, 그때마다 전체 문장을 써내고 토큰을 하나씩 디코딩하고 다음 에이전트가 다시 읽어 재인코딩해야 한다. 연구는 '왜 굳이 그래야 하느냐'고 묻는다.

제안은 '영어도, 글자도 잊자'는 것이다. 대신 디코딩하지 않은 원시 숫자, 즉 잠재 상태를 다음 에이전트에게 직접 전달한다. 저자는 이를 '에이전트 간 잠재 상태 전이(cross-agent latent state transfer)'라 부른다. 비유하자면 세 에이전트의 뇌를 직접 연결해 신호를 주고받는 셈이다.

결과적으로 같은 연산량으로 답을 더 잘 다듬어, 경쟁 수준 수학에서 73%→86%, 토큰 75% 절감을 달성했다. 학습 비용은 약 4달러. 라운드를 늘릴수록 좋아지는 새로운 스케일링 법칙 가능성도 거론된다(단 최적 잠재 사고 길이는 약 80스텝). 다만 실험이 작은 모델 위주였고 대형 모델로의 확장성은 아직 미지수이며, 코드·모델은 무료 공개됐지만 여전히 초기·거친 단계라고 분명히 선을 긋는다.

주요 인사이트

에이전트 협업의 병목은 '지능'보다 '소통 방식'일 수 있다 — 사람이 쓰는 자연어가 기계끼리의 통신에는 최적이 아닐 수 있다는 발상이 핵심이다.
토큰 디코딩·재인코딩을 건너뛰니 비용과 지연이 동시에 줄어, 작은 모델을 훨씬 비싼 큰 모델 근처 성능으로 끌어올리는 비용 효율적 경로가 된다.
같은 교사 모델을 다른 구조에 줘 비교한 통제 실험으로 '증류 효과 vs 구조 효과'를 분리해 검증한 점이 연구의 신뢰도를 높인다.
약 80스텝이라는 최적 사고 길이는 라운드당 사고량에 상한이 있음을 시사하지만, 올림피아드급 수학을 이미 푸는 수준이라 실용적 제약은 크지 않다.

자주 묻는 질문

이 방식으로 수학 정답률이 얼마나 올랐나?

경쟁 수준의 수학 문제에서 정답률이 73%에서 86%로 올랐다고 소개한다.

토큰과 비용은 어떻게 달라졌나?

토큰 사용량이 75% 줄었고, 학습 비용은 약 4달러에 불과했다고 한다.

한계는 무엇인가?

주로 작은 모델에서 검증됐고 대형 모델로의 확장성은 아직 확인되지 않았으며, 최적 잠재 사고 길이가 약 80스텝으로 제한된다. 또한 여전히 초기·연구 단계다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗