AI VIDEO BRIEFING
브라우저 에이전트 병목은 모델이 아니라 화면 인식 환경이다
브라우저 에이전트가 느리고 자주 멈추는 이유는 모델 성능이 아니라 화면을 제대로 보지 못하는 환경 때문이라는 분석과, 웹페이지를 토큰 수십 배 압축해 보여주는 해법을 정리했다.

핵심 메시지
쉽게 이해하기
세라핌(Seraphim)에서 창립 엔지니어로 일했던 쿠샨(Kushan)은 브라우저 에이전트가 개념적으로는 매력적이지만 실제로는 거의 쓰이지 않는다는 문제의식에서 출발한다. 그는 한 벤치마크에서 기존 에이전트가 '시작' 버튼 하나를 누르는 데만 10~20초가 걸리고, 30단계짜리 과제에서 첫 단계조차 한참 걸리는 모습을 보여준다.
그의 핵심 가설은 '모델은 이미 충분히 똑똑하지만, 그 주변 인프라가 형편없다'는 것이다. 에이전트가 무엇을 클릭해야 할지, 지금 화면에서 무슨 일이 벌어지는지 이해하지 못한 채 스크린샷만 반복해서 찍으며 헤매는 것이 진짜 문제라는 진단이다.
해법으로 그는 웹페이지를 압축한 표현을 제시한다. 전체 DOM이 약 2만 토큰인 데 비해, 페이지를 마크다운으로 압축하면 약 1,800토큰, 스크린샷은 약 1,100토큰이면 페이지 전체 맥락을 한 번에 담을 수 있다. 토큰이 적게 들기 때문에 저렴한 모델로도 긴 작업을 계획할 수 있다.
실제 사례로 그는 신분증(Aadhaar) 내려받기와 캐나다 사이트의 트레킹 예약을 든다. 스크린샷에 의존하는 클로드(Claude)는 버튼을 보고도 그 다음에 멈춰 2분간 스크롤만 반복했지만, 변화 피드백을 받는 자신의 에이전트는 날짜 선택까지 단번에 끝냈다고 설명한다.
그는 이 코드가 특별히 방어적인 해자가 있는 것은 아니라며, 'URL과 의도를 주면 대신 실행해 결과를 돌려주는' API나 플러그인, 혹은 오픈소스 프로젝트로 공개하는 방향을 검토하고 있다고 밝혔다. 목표는 브라우저 에이전트를 더 빠르고 저렴하며 신뢰할 수 있게 만들어 누구나 쓰게 하는 것이다.
주요 인사이트
- '더 큰 모델'이 항상 답은 아니다. 같은 작업을 더 싼 모델로도 잘 해내려면, 모델에게 환경을 제대로 인식시키는 표현(representation) 설계가 성능을 좌우한다.
- 전체 DOM을 그대로 넣는 방식은 토큰 낭비가 크다. 페이지를 의미 중심으로 압축하면 비용은 줄고 모델의 추론 정확도는 오히려 올라간다.
- 에이전트에게 '결과'만이 아니라 '무엇이 바뀌었는지(나타남·사라짐·차단 해제)'를 알려주는 피드백 루프가 안정성의 핵심이다.
- 속도와 안정성은 단순한 편의가 아니라 채택의 전제 조건이다. 버튼 하나에 수십 초가 걸리면 아무리 똑똑한 에이전트도 실사용되지 않는다.
자주 묻는 질문
브라우저 에이전트가 느린 진짜 이유는 무엇인가?
발표자는 모델의 지능 부족이 아니라, 모델이 웹페이지에서 지금 무슨 일이 일어나는지 제대로 인식하지 못하는 빈약한 환경(인프라)이 원인이라고 본다. 그래서 에이전트가 클릭 하나에도 헤매며 스크린샷만 반복하게 된다.
페이지를 압축하면 토큰이 얼마나 줄어드나?
발표에 따르면 전체 DOM은 약 2만 토큰이지만, 페이지를 마크다운으로 압축한 표현은 약 1,800토큰, 스크린샷은 약 1,100토큰 수준이다. 적은 토큰으로 페이지 전체 맥락을 담을 수 있어 저렴한 모델로도 긴 작업을 계획할 수 있다.
이 프로젝트는 앞으로 어떻게 공개되나?
발표자는 코드가 특별히 방어적이지 않다고 보고, URL과 의도를 입력하면 대신 실행해 결과를 돌려주는 API나 플러그인, 혹은 오픈소스 형태로 공개하는 방안을 검토하고 있다고 밝혔다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗