AI VIDEO BRIEFING
Cursor 개발 교훈: Composer 모델·RL 학습·클라우드 에이전트의 미래
Cursor가 자체 모델 Composer를 만든 이유, 수백만 샌드박스를 돌리는 RL 인프라, 클라우드 에이전트의 과제, 그리고 코딩의 변화에 대한 인터뷰를 정리했다.

핵심 메시지
쉽게 이해하기
인터뷰는 Cursor가 막 공개한 Composer 1.5 모델 이야기로 시작한다. 화자는 이 모델을 Sonnet 4.5와 Opus 4.5 사이의 성능으로 평가하며, 거의 전적으로 대량의 RL(강화학습)로 학습했다고 말한다. 아직 최상위 모델은 아니지만, 핵심 목표는 "엔터를 누르고 자러 가는" 모델이 아니라 매우 빠르고 쓰는 동안 몰입감 있는 모델을 만드는 것이라고 강조한다.
왜 프런티어 모델에 올라타지 않고 자체 모델을 만드느냐는 질문에, 제품과 모델이 통합될수록 원하는 기능을 모델 자체에 심어야 한다고 답한다. 예컨대 과거 모델은 grep조차 잘 못 썼는데, RL로 학습시켜야 잘하게 된다. Composer는 대규모 코드베이스에서 수십 번의 grep 대신 한두세 번의 시맨틱 검색으로 위치를 찾아내며, 거의 모든 질의를 2~3분 안에 처리하는 재귀적 서브에이전트 같은 능력도 자체 학습을 통해서만 가능하다고 본다.
인프라 이야기에서는 RL을 위해 수백만 개의 샌드박스를 동시에 돌리는 규모를 다룬다. 연간 1억 달러가 넘는 CPU 연산 수준이 되면, 지난 10년간 "어려운 일은 AWS 같은 제공자에게 떠넘기던" 방식이 통하지 않고 직접 오케스트레이션해야 한다고 설명한다. 또한 모델 선택은 가급적 라우팅 없이 투명하게 두려 하며, 이상적으로는 구글 검색처럼 사용자가 모델을 고민할 필요가 없어야 한다고 말한다. 현재는 Composer를 쓰는 사람과 Opus·Codex를 쓰는 사람으로 취향이 갈린다고 덧붙인다.
클라우드 에이전트는 다음 큰 도약으로 지목된다. 다만 현재의 웹 기반 에이전트는 부팅이 느리고 변경 파일을 보기 어려워, 컴퓨터를 닫을 수 있다는 점만 빼면 로컬 에이전트보다 못하다고 본다. 더 근본적인 문제는 수천 줄짜리 diff를 받아도 그것이 병합 가능한지 사용자가 책임져야 한다는 점이며, 이는 잘못됐다고 지적한다. 코드가 옳은지 증명하는 책임은 모델에 있어야 한다는 것이다. 클라우드 에이전트 사용량을 1%에서 90%로 끌어올리려면 천 배 성장이 필요하고, 그런 도약은 UI 손질이 아니라 "모델이 스스로 코드를 테스트"하는 식의 근본적 변화에서 나온다고 말한다.
장시간 실행 인프라에서는, 100밀리초~2초로 끝나던 기존 RPC와 달리 에이전트는 수 분에서 수 일까지 걸려 P50·P90 같은 모니터링이 어렵고 12시간 도는 에이전트를 어떻게 배포·교체하느냐가 과제라고 설명한다. 해법으로 우버에서 나온 워크플로 엔진 Temporal이나 Re-state 같은 도구를 든다. 또 컨텍스트 한계를 넘기면 모델이 스스로 요약을 작성하도록 RL로 학습시키는 self-summarization, 과거 대화를 파일로 덤프해 필요할 때 grep하는 방식 등을 소개한다. 마지막으로 화자는 "코딩이 6개월 만에 풀렸다"며, 엔지니어가 점점 관리자처럼 변하고, 보안·기술부채·버그·백로그에 예산을 배분하면 코드베이스가 일부 스스로 굴러가는 "자율 주행 코드베이스"를 기대한다고 밝힌다. 다만 오래 유지할 코드는 한 줄씩 리뷰하고 주말용 코드는 신경 쓰지 말라는 현실적 조언도 덧붙인다.
주요 인사이트
- 제품과 모델이 통합될수록, 원하는 능력(시맨틱 검색·서브에이전트 등)은 프롬프트가 아니라 RL로 모델에 직접 심어야 한다는 것이 자체 모델을 만든 핵심 논리다.
- 에이전트 시대의 인프라 난점은 실행 시간의 거대한 분산이다. 수 분~수 일에 이르는 변동성 때문에 기존 RPC식 모니터링이 무력해지고, Temporal 같은 내구성 워크플로 엔진이 필요해진다.
- 클라우드 에이전트의 진짜 잠금장치는 UI가 아니라 신뢰다. 모델이 스스로 코드를 테스트해 옳음을 증명하게 만들자 사용량이 크게 늘었다는 점이 이를 보여준다.
- 컨텍스트 한계는 self-summarization으로 우회한다. 단순 프롬프트가 아니라, 미래의 자신에게 유용한 요약을 쓰도록 RL로 보상해야 실제로 쓸 만한 요약이 나온다.
- 브라우저를 처음부터 만들게 한 실험에서 화자는 "내가 못 할 일을 모델이 해내는" 순간을 처음 목격했다고 말하며, 능력의 계단식 도약이 엔지니어의 작업 방식을 계속 바꿀 것으로 본다.
자주 묻는 질문
Cursor는 왜 프런티어 모델 대신 자체 모델 Composer를 만들었나?
제품과 모델이 통합될수록 원하는 기능을 모델 자체에 학습시켜야 하기 때문이다. 시맨틱 검색이나 재귀적 서브에이전트 같은 능력은 RL을 통해서만 잘 익힐 수 있다고 본다.
장시간 실행되는 클라우드 에이전트 인프라의 핵심 과제는 무엇인가?
에이전트는 수 분에서 수 일까지 실행 시간 변동이 커서 기존 RPC식 모니터링이 어렵고, 오래 도는 작업을 어떻게 배포·교체하느냐가 문제다. 해법으로 Temporal 같은 내구성 워크플로 엔진이 거론된다.
컨텍스트 윈도 한계는 어떻게 다루나?
모델이 한계에 도달하면 스스로 요약(self-summarization)을 작성하도록 RL로 학습시키고, 과거 대화를 파일로 저장해 필요할 때 grep으로 찾아보게 하는 방식이 소개된다.
코딩의 미래에 대해 어떻게 전망했나?
"코딩은 사실상 6개월 만에 풀렸다"고 평가하며, 엔지니어가 점점 관리자 역할로 이동하고 코드베이스가 일부 스스로 관리되는 "자율 주행 코드베이스"로 나아갈 것으로 본다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗