AI VIDEO BRIEFING

재귀 코딩 에이전트와 RLM: AI 에이전트 신뢰성을 끌어올리는 새 패러다임

AI 엔지니어 컨퍼런스 강연 정리. 재귀 언어 모델(RLM)의 아이디어를 코딩 에이전트에 적용해, 지능이 아니라 작업의 명세·관리·검증으로 신뢰성을 높이는 접근을 소개한다.

출처: AI Engineer2026년 6월 25일AI 보조 요약

재귀 코딩 에이전트: ‘관리받지 못한 천재’ AI를 믿을 수 있게 만드는 법 영상 대표 이미지

핵심 메시지

오늘날 AI 에이전트의 병목은 지능이 아니라 신뢰성이다. 모델은 충분히 똑똑하지만 결과를 안정적으로 내놓지 못해 믿고 맡기기 어렵다.
강연자는 현재의 에이전트를 ‘관리받지 못한 천재(mismanaged genius)’로 규정하고, 부족한 것은 더 많은 지능이 아니라 작업을 명세·관리·재사용·검증하는 층이라고 본다.
재귀 언어 모델(RLM)은 프롬프트(맥락) 자체를 계산 대상으로 삼아, 코드 실행과 추론을 결합하고 하위 에이전트를 재귀적으로 호출해 문제를 분해한다.
작은 모델도 RLM 방식으로는 긴 추론 과제에서 최상위 프런티어 모델을 능가할 수 있을 만큼 강력하다.
재귀 코딩 에이전트는 RLM의 원리를 코딩 에이전트에 적용한 것으로, OpenProse 같은 도구를 쓰면 어떤 코딩 에이전트든 RLM 스타일로 동작시킬 수 있다.

쉽게 이해하기

강연자 레이먼드 와이트캠프는 모두가 ‘우리를 대신해 일하는 믿을 만한 동료 같은 에이전트’를 원한다고 말한다. 하지만 어느 날은 긴 프롬프트 하나로 거의 완성된 SaaS 앱을 받다가도, 다음 날에는 코딩 에이전트가 엉뚱한 행동을 하는 식으로 결과가 들쭉날쭉해 신뢰가 쌓이지 않는다고 지적한다. 그는 이 문제의 핵심이 지능 부족이 아니라 신뢰성, 즉 결과를 안정적으로 내놓지 못하는 데 있다고 본다.

그가 제시하는 핵심 개념은 재귀 언어 모델(RLM)이다. RLM에서는 전체 프롬프트가 단순한 사용자 질의가 아니라 하나의 ‘변수’이며, 파일 하나 또는 여러 개가 될 수 있다. 모델은 이 거대한 맥락을 통째로 컨텍스트 창에 욱여넣는 대신, 코드 실행 환경(REPL)을 통해 기호적으로 탐색하고, 필요하면 하위 LLM·하위 RLM을 재귀적으로 호출해 답을 조각내어 풀어 올린다. 그는 이를 추론과 코드 실행의 우아한 결합이자, 추론 시점 연산(test-time compute)의 다음 패러다임이라고 본다.

RLM의 위력을 보여주는 사례도 제시된다. RLM 하네스는 별다른 수정 없이도 상위권 메모리 시스템 수준의 성능을 내고, 컨텍스트 창보다 수십 배 큰 정보를 처리할 수 있다. 또한 노트북에서 돌릴 만한 작은 모델(Qwen 계열)을 RLM으로 구성하면, 긴 추론 사슬을 요구하는 벤치마크에서 Opus나 GPT 계열 같은 최상위 모델을 단일 LLM으로 쓸 때보다 더 좋은 점수를 낼 수 있었다고 소개한다.

이어서 그는 RLM의 원리를 코딩 에이전트에 옮긴 ‘재귀 코딩 에이전트’ 실험을 공유한다. 처음에는 RLM 패키지를 코딩 에이전트의 도구처럼 감싸 1억 토큰 규모의 코퍼스를 뒤지게 했고, 더 나아가 코딩 에이전트가 자기 자신을 그대로 재귀 호출하도록 만드는 방식을 시도했다. 미니멀하고 확장 가능하도록 설계된 코딩 에이전트 ‘pi’의 확장 기능을 이용해, 깊이를 자유롭게 설정할 수 있는 순수 재귀 코딩 에이전트를 구현했다고 설명한다.

마지막으로 그는 OpenProse를 소개한다. OpenProse는 컴퓨터가 아니라 코딩 에이전트가 해석하는 마크다운 기반의 ‘논리적 영어’ 명세 언어로, 복잡한 문법 없이도 하위 에이전트의 작업을 명시적으로 선언하고 검증하며 필요한 스킬·도구를 의존성으로 지정할 수 있다. 이를 통해 대규모 리포지토리 마이그레이션, 디렉터리 단위의 심층 분석, 감사·버그 점검, 적대적(red team) 검증 같은 작업을 재귀적으로 수행하고, 한 번 잘 작동한 ‘골든 세션’을 재사용 가능한 워크플로로 만들 수 있다고 말한다.

주요 인사이트

신뢰는 곧 신뢰성에서 나온다. 안정적이지 않은 것을 믿고 맡길 수는 없으며, 다음 도약은 더 강한 원초적 지능이 아니라 행동과 오케스트레이션에 있다.
RLM은 추론과 도구 호출을 통합한 새로운 추론 시점 연산 패러다임으로, 도구를 통해 추론하고 그 도구 중 하나로 다른 에이전트를 호출해 재귀적으로 문제를 분해한다.
코딩 에이전트가 자동으로 RLM이 되는 것은 아니다. 다만 클로드 코드의 동적 워크플로나 OpenProse 같은 방식으로 코딩 에이전트를 RLM처럼 동작하게 만들 수 있다.
맥락 자체를 계산 대상으로 다루면, 작은 모델로도 큰 모델을 능가하는 결과를 낼 수 있을 만큼 ‘어떻게 일을 시키는가’가 ‘얼마나 똑똑한가’보다 중요해진다.

자주 묻는 질문

강연자가 말하는 AI 에이전트의 가장 큰 한계는 무엇인가?

지능이 아니라 신뢰성이다. 모델은 인터넷 전체를 알 만큼 똑똑하지만 결과를 안정적으로 내놓지 못해, 믿고 일을 맡기기 어렵다는 점을 핵심 문제로 꼽는다.

재귀 언어 모델(RLM)이란 무엇인가?

프롬프트(맥락) 자체를 계산 대상으로 삼는 방식이다. 전체 프롬프트를 하나의 변수로 보고 코드 실행 환경에서 기호적으로 탐색하며, 하위 LLM·하위 RLM을 재귀적으로 호출해 문제를 분해하고 답을 풀어 올린다.

OpenProse는 어떤 역할을 하나?

코딩 에이전트가 해석하는 마크다운 기반의 명세 언어로, 하위 에이전트 작업을 명시적으로 선언·검증하고 필요한 스킬·도구를 의존성으로 지정한다. 이를 통해 어떤 코딩 에이전트든 RLM 스타일로 동작시킬 수 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗