AI VIDEO BRIEFING

AI 에이전트 신뢰성 높이기: 골든 데이터셋·평가(evals)·AutoAgent 실전

Nearform의 테크 리드가 골든 데이터셋과 평가(evals), 코딩 에이전트를 활용해 AI 에이전트의 환각·비결정성 문제를 반복적으로 개선하는 방법과 실제 정확도 향상 사례를 공유한다.

출처: AI Engineer2026년 6월 28일AI 보조 요약

에이전트가 에이전트를 개선한다: 골든 데이터셋·평가·코딩 에이전트로 AI 에이전트 신뢰성 높이기 영상 대표 이미지

핵심 메시지

AI 에이전트는 본질적으로 LLM이 도구·맥락과 연결돼 에이전틱 루프 안에서 도는 구조이며, 환각·비결정성·지연·비용 같은 새로운 문제를 동반한다.
골든 데이터셋은 입력과 기대 출력(때로는 특정 도구 호출 순서까지)을 정의한 비결정적 테스트 스위트로, 스코어러와 함께 에이전트의 정확도 기준선과 회귀를 측정한다.
AutoAgent는 평가를 돌리고 코드·시스템 프롬프트·도구를 자율적으로 수정한 뒤 개선 여부를 다시 검증하는 루프로, 한 사례에서 정확도를 18%에서 83%까지 끌어올렸다.
실제 사용자 트레이스를 수집·군집화해 실패 모드를 찾아내고, 전문가 검증을 거쳐 코딩 에이전트로 수정하는 파이프라인이 운영 중인 에이전트를 지속적으로 개선한다.

쉽게 이해하기

발표자 알폰소는 Nearform의 테크 리드로, 여러 팀이 AI 네이티브 엔지니어링을 도입하도록 돕고 있다. 그는 업계 모두가 워크플로 자동화·검색 등에 AI 에이전트를 원하지만, 에이전트에는 환각·비결정성·지연·비용 같은 높은 대가가 따른다고 짚는다. 핵심 질문은 "AI로 AI 에이전트를 더 안정적으로 만들 수 있는가"이며, 강연은 그동안 프로젝트에서 다듬어 온 반복 가능한 프로세스로 이를 부분적으로 해결하는 방법을 다룬다.

첫 번째 문제 유형은 "평가(evals)에서의 낮은 성능"이다. 여기서 기준이 되는 것이 골든 데이터셋 — 도메인 전문가와 함께 만드는, 입력과 기대 출력을 정의한 파일이다. 기대 출력은 단순한 숫자·텍스트일 수도 있지만, 실제로는 "이 도구를 이 파라미터로, 이 순서로 호출해야 한다" 같은 형태가 될 수 있다. 이 데이터셋과 스코어러를 함께 돌려 시스템의 현재 정확도를 수치로 얻고, 기준선과 회귀를 추적하며 개선한다.

도구가 없는 단순 "헬로월드" 에이전트는 평가 통과율이 18%에 그쳤다. 덧셈·곱셈처럼 LLM 가중치만으로 답할 수 있는 문항만 맞춘 것이다. 통과율을 올리려면 흔히 (1) 알맞은 도구 부여, (2) 시스템 프롬프트 보강, (3) 맥락 검색(보통 도구로 구현) 개선이 필요하다. 발표자는 안드레이 카파시의 "auto research"(코딩 에이전트가 ML 코드·하이퍼파라미터를 수정해 성능을 높인 실험)에서 영감을 받아, 같은 아이디어를 에이전트에 적용한 AutoAgent를 만들었다.

AutoAgent의 핵심은 Claude Code 같은 코딩 에이전트가 대상 에이전트의 코드를 작성하고, 평가·트레이스 피드백을 읽어 가설을 세우고, 매 반복마다 새 브랜치에서 변경을 시도하는 루프다. 평가가 개선되면 그 브랜치에서 이어가고, 회귀가 나면 롤백한다. 모든 실행을 관통하는 메모리 파일과 리포트로 맥락을 유지한다. 사람은 초기 에이전트 구성과 "평가를 통과시키려고 골든 데이터셋·스코어러를 고치지 말라" 같은 제약을 주며 방향을 잡는다. 이 방식으로 단순 에이전트는 18%→83%, 이미 사람이 최적화한 프로덕션 에이전트도 일부 벤치마크에서 +10%, 또 다른 실제 에이전트는 67%→86%로 개선됐다.

두 번째 문제 유형은 "실시간 데이터에서의 낮은 성능"이다. 실제 사용자·베타 테스터·전문가의 피드백(좋아요/싫어요와 코멘트)과 트레이스를 수집하고, 충분히 쌓이면 에이전트 워크플로로 부정 피드백을 군집화해 실패 모드를 도출한다. 전문가 검증과 근본 원인 분석을 거쳐 수정 제안을 코딩 에이전트가 구현하고, 기존 트레이스를 회귀 테스트로 삼아 프로덕션에 배포한다. 발견된 실패 모드는 다시 골든 데이터셋에 편입돼 재발을 빠르게 잡아낸다. 이 모든 것을 뒷받침하는 것이 "하니스 엔지니어링" — 스펙·품질 게이트(린트·유닛 테스트·평가·LLM 코드 리뷰)·맥락 엔지니어링·관측 가능성으로 코딩 에이전트가 자기 변경을 검증하며 안정적으로 일하게 하는 환경 설계다.

주요 인사이트

에이전트의 기대 출력은 단순 정답이 아니라 "어떤 도구를 어떤 순서·파라미터로 호출하는가"까지 포함할 수 있어, 평가 설계가 에이전트마다 크게 달라진다.
코딩 에이전트는 사람이 미처 찾지 못한 엣지 케이스와 도구 설명·로직 개선을 스스로 발견해, 이미 최적화된 에이전트에서도 추가 향상을 끌어냈다.
브랜치 기반 가설-검증-롤백 루프는 개선과 회귀를 모두 변경 로그로 남겨, 실패한 가설도 사람이 다시 읽고 방향을 바로잡을 수 있게 한다.
발견된 모든 실패 모드를 골든 데이터셋에 편입하면, 같은 결함이 나중에 다시 들어와도 평가·스코어러가 즉시 잡아낸다.
리포트 생성 주기는 데이터 양에 달렸지만, 발표자는 스프린트당 1회 정도가 현실적이라고 본다.

자주 묻는 질문

골든 데이터셋(golden dataset)이란 무엇인가요?

도메인 전문가와 함께 만드는, 시스템의 입력과 기대 출력을 정의한 파일 집합입니다. 기대 출력은 숫자·텍스트일 수도, "이 도구를 이 파라미터·순서로 호출하라" 같은 형태일 수도 있습니다. 비결정적 환경의 테스트 스위트 역할을 하며, 스코어러와 함께 정확도 기준선과 회귀를 측정합니다.

AutoAgent는 어떻게 작동하나요?

코딩 에이전트(예: Claude Code)가 대상 에이전트 코드를 작성하고, 평가와 트레이스 피드백을 읽어 가설을 세웁니다. 매 반복마다 새 브랜치에서 변경을 시도해 평가를 다시 돌리고, 개선되면 이어가고 회귀가 나면 롤백합니다. 메모리·리포트 파일로 맥락을 유지하며 자율적으로 개선합니다.

실시간 사용자 데이터로 에이전트를 어떻게 개선하나요?

사용자·전문가의 피드백과 트레이스를 수집해 부정 피드백을 군집화하고 실패 모드를 도출합니다. 전문가 검증·근본 원인 분석 후 코딩 에이전트가 수정을 구현하고, 기존 트레이스를 회귀 테스트로 삼아 배포합니다. 발견된 실패 모드는 골든 데이터셋에 편입돼 재발을 막습니다.

하니스 엔지니어링(harness engineering)이란 무엇인가요?

코딩 에이전트가 안정적으로 일하도록 그 주변 환경을 설계하는 것입니다. 스펙 환경, 품질 게이트(린팅·유닛 테스트·평가·LLM 코드 리뷰), 맥락 엔지니어링, 관측 가능성을 제공해 에이전트가 스스로 변경을 검증하고 필요하면 다시 수정하도록 만듭니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗