AI VIDEO BRIEFING

AI 에이전트가 결과로부터 학습하지 못하는 이유와 유틸리티 점수 해법

AI 에이전트 실패의 73%는 생성이 아니라 정적인 검색(retrieval)에서 비롯된다. 평가 신호를 검색에 반영하는 '유틸리티 점수'와 런타임 학습 개념을 소개한다.

출처: AI Engineer2026년 6월 28일AI 보조 요약

AI 에이전트가 같은 실수를 반복하는 이유: '검색 경계'에서 죽는 학습 신호 영상 대표 이미지

핵심 메시지

에이전트는 추론·도구 호출·메모리 검색으로 작업을 수행하지만, '무엇이 통했고 무엇이 실패했는지 결과로부터 배우는 학습 루프'가 빠져 있어 같은 실수를 반복한다.
발표자는 파이프라인 실패의 73%가 생성(generation)이 아니라 정적인 검색(retrieval)에서 비롯되며, 검색이 결과로부터 학습하지 못하는 것이 근본 문제라고 지적한다.
관측(트레이스)과 평가(eval) 결과가 대시보드에만 머물고 에이전트의 다음 행동으로 이어지지 않는다. 둘 사이에 '결과를 검색 지침으로 바꾸는 누락된 계층'이 필요하다.
해법으로 제시한 '유틸리티 점수'는 의미 유사도에 더해 그 메모리가 과거에 작업에 도움이 됐는지/해가 됐는지를 가중치로 반영해 검색 순위를 다시 매긴다.
이 런타임 학습(Agent Rx)은 재학습·파인튜닝·수작업 프롬프트 수정 없이 실행 중에 개선되며, 메모리를 '사실'이 아니라 '추론'으로 다룬다.

쉽게 이해하기

발표자(Starling Search 공동창업자)는 에이전트를 '추론하고 도구를 호출하며 현실과 상호작용하고 메모리를 검색해 작업을 완수하는 LLM'으로 정의한다. 가장 기본적인 ReAct 구조로 설명하면서, 정작 빠져 있는 핵심 루프는 '결과로부터의 학습'이라고 강조한다. 그래서 에이전트가 같은 작업에서 계속 실패한다는 것이다.

그는 가트너가 AI의 85%가 자리 잡지 못한다고 보고했고, 맥킨지 2025 보고서를 인용하며 문제의 상당수가 정적인 검색에 있다고 말한다. 파이프라인 실패의 73%는 생성이 아니라 검색에서 나온다. Pinecone 전 CTO의 말을 빌려 '우리는 잘못된 것을 최적화해 왔다 — 틀린 답을 더 빠르고 싸게 내놓게 만들었지만, 검색이 학습하도록 만드는 것은 잊었다'고 짚는다.

두 번째 문제는 에이전트가 '결과 정보를 모른다(outcome-uninformed)'는 점이다. 관측 스택은 모든 도구 호출·LLM 완성·예외를 기록하고, 평가 스위트는 최종 출력의 성공/실패를 판정한다. 그러나 이 신호가 에이전트의 맥락·스킬·행동에 전혀 반영되지 않아, 어제 실행이 왜 성공·실패했는지 에이전트는 알지 못한다. 평가 신호가 대시보드에서 죽어버리는 것이다.

기존 메모리(LangChain, Mem0 등)는 사용자 선호·프로필·대화 이력 같은 개인화에 맞춰져 있고 검색 신호가 임베딩 유사도뿐이라 결과로부터 학습하지 못한다. 그래서 발표자는 '유틸리티 점수'를 제안한다. 현재 작업과의 의미 유사도에, 그 메모리가 과거 실행에 도움이 됐는지 해가 됐는지를 가중치로 곱해 검색 순위를 다시 매기는 방식이다. 결과(outcome)가 재순위화의 일급 신호가 된다.

이 접근(Agent Rx, 런타임 경험 계층)은 컴파일 타임에 교훈을 프롬프트에 굽는 DSPy류와 달리 실행 중에 개선된다. 메모리를 맥락 없는 사실이 아니라 추론으로 다룬다(예: 환불 요청 시 이중 환불을 막기 위해 정산을 먼저 확인하라). 발표자는 메모리가 약 10개 쌓이면 그 추론을 스킬로 구워 에이전트를 항상 최신 상태로 유지한다고 설명한다. 벤치마크에서 정책 준수를 보는 towel/tau bench가 66→76%, 스킬 적용 시 80%로, 또 인간 최후의 시험 등 에이전트 과제에서도 기준선 35.7%에서 다른 메모리 58.2%를 거쳐 정제된 메모리로 61.3%까지 올랐다고 제시한다.

주요 인사이트

에이전트 실패는 흔히 '모델이 멍청해서'로 오해되지만, 발표자는 실패의 73%가 정적인 검색 단계에서 발생한다고 본다 — 즉 생성보다 검색이 병목이다.
관측과 평가에 모든 신호가 쌓여 있어도, 그것이 다음 실행의 검색·행동으로 환류되지 않으면 무용지물이다. '결과 → 검색 지침'으로 잇는 계층이 빠진 고리다.
검색을 키워드나 임베딩 유사도만으로 하지 않고 '과거에 실제로 도움이 됐는가'라는 유틸리티로 가중하면, 검색이 결과로부터 스스로 학습하게 된다.
메모리를 '사용자는 다크 테마를 선호한다' 같은 사실 저장이 아니라 '환불 전 정산 확인' 같은 추론으로 다루면 컨텍스트 스터핑을 줄이고 행동 품질을 높인다.
재학습·파인튜닝 없이 실행 중(runtime)에 개선하는 방식은, 더 이상 유효하지 않은 시스템 프롬프트 항목(예: 사라진 DB 컬럼)을 스킬 갱신으로 스스로 정리할 수 있게 한다.

자주 묻는 질문

AI 에이전트가 같은 실수를 반복하는 근본 원인은 무엇인가요?

결과로부터 배우는 학습 루프가 빠져 있고, 검색(retrieval)이 정적이기 때문입니다. 발표자는 파이프라인 실패의 73%가 생성이 아니라 검색에서 비롯된다고 말하며, 관측·평가 신호가 대시보드에만 머물고 에이전트의 다음 행동에 반영되지 않는 점을 핵심 문제로 꼽습니다.

'유틸리티 점수(utility score)'란 무엇인가요?

현재 작업과의 의미 유사도에, 해당 메모리가 과거 실행에서 도움이 됐는지 또는 해가 됐는지를 가중치로 반영해 검색 결과의 순위를 다시 매기는 방식입니다. 키워드나 단순 임베딩 유사도가 아니라 '실제 유용성'을 기준으로 검색하게 만듭니다.

이 방식은 파인튜닝이나 프롬프트 수정과 어떻게 다른가요?

Agent Rx라는 런타임 경험 계층은 재학습·파인튜닝·수작업 프롬프트 수정 없이 에이전트가 작업을 실행하는 도중에 개선됩니다. 교훈을 미리 프롬프트에 굽는 컴파일 타임 방식과 달리, 메모리가 충분히 쌓이면 추론을 스킬로 구워 에이전트를 최신 상태로 유지합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗