AI VIDEO BRIEFING

AI 에이전트 운영: 출시 후 로그 모니터링과 자동 개선 루프 만들기

데모에서 잘 도는 에이전트도 출시 후가 진짜 시작이다. 로그 모니터링·세션 분석·컴퓨터 유즈로 피드백 루프를 닫는 Wandero의 '메타 하네스' 운영 전략을 정리했다.

에이전트는 출시가 끝이 아니다: 배포 이후를 지키는 '빠진 계층' 영상 대표 이미지

핵심 메시지

  • 요즘은 며칠 만에 제품을 만들 수 있어 출시가 가장 쉬운 일이 되었고, 진짜 일은 출시 이후 피드백 루프를 닫는 데서 시작된다.
  • 에이전트는 정해진 흐름이 없고 커버리지가 무한해, 프로덕션에 가기 전에는 무엇을 테스트해야 할지조차 알 수 없다.
  • '끝남'이 곧 '도움이 됨'은 아니다. 에이전트가 성공처럼 보여도 잘못된 서비스를 쓰거나 계산을 틀려 실제로는 실패할 수 있다.
  • 로그가 진실의 원천이지만 로그 분석 자체가 에이전트 문제라, 로그를 진단하고 PR을 보내는 에이전트와 그것을 비판적으로 검토하는 별도 에이전트가 필요하다.
  • 모델 하나로는 부족하며, 스스로를 관찰·개선하고 루프를 닫는 시스템(메타 하네스)을 그 주위에 만들어야 한다.

쉽게 이해하기

Wandero AI의 라파엘 칼란다제는 대부분의 에이전트 발표가 '출시하면 끝'에서 멈추지만, 실제로는 출시가 진짜 일의 시작이라고 말한다. 그는 출시 이후 시스템의 건강을 파악하고 아직 모르는 구멍을 찾아내는 이 영역을 '빠진 계층(the missing layer)'이라 부른다.

그는 이 문제가 왜 지금 어려운지 설명한다. LLM은 비결정적이라 같은 입력도 다른 경로를 밟고, 커버리지가 무한해 사전에 모든 대화를 적어둘 수 없다. 유닛 테스트·정규식·규칙 기반 검사, 고객 대화 시뮬레이션 스크립트를 시도해도 전체 문제의 한 조각일 뿐이며, 프로덕션에 가야 무엇을 테스트해야 할지 배운다.

특히 무서운 것은 '실패의 은폐'다. 에이전트가 도중에 막혔다가 운 좋게 우회해 복구하면 대시보드에는 아무 경고도 뜨지 않지만, 이는 코드베이스에 숨은 조기 경보다. 신뢰할 수 있는 에이전트라면 운에 의존해선 안 된다. 또한 여정 계획을 성공적으로 끝냈어도 잘못된 서비스로 가격을 틀리게 계산하면 기술적으로는 성공이지만 실제로는 실패다.

해법의 첫 축은 '로그 모니터링 에이전트'다. 트래젝토리·로그·코드베이스 접근권을 주면 15분~1시간마다 로그를 깊이 파고들어 문제를 진단하고 PR을 보내거나 Slack 알림을 띄운다. 여기에 신선한 컨텍스트로 PR을 다른 각도에서 비판하고 집중 테스트를 돌리는 별도의 리뷰 에이전트를 둬, 편향 없이 변경을 걸러낸다.

둘째 축은 '세션 분석기'로, 개별 버그가 아니라 시스템의 건강 점수를 준다. 수많은 대화를 채점해 성공률·비용·감정 분석·도구 호출 통계와 함께 패턴을 잇는 AI 인사이트를 뽑아 준다. 셋째 축은 '컴퓨터 유즈 에이전트'로, 브라우저를 열어 로그인하고 실제 고객처럼 UI를 점검한다. 발표자는 이 모든 도구가 연결된 전체를 '메타 하네스'라 부른다.

주요 인사이트

  • 발표자는 '출시가 오늘날 가장 쉬운 부분'이며, 프로덕션 에이전트를 만들려면 먼저 피드백 루프를 닫아야 한다고 반복해 강조한다.
  • PR 에이전트와 리뷰 에이전트가 세 명의 팀보다 매일 10배 많은 PR을 만들어내므로, 사람이 병목이 되지 않게 이를 처리할 깔끔한 시스템이 필요하다.
  • 발표자는 먼저 자신이 병목이 되는 지점까지 루프를 만든 뒤, 그다음에 사람을 손쉽게 빼는 순서를 권한다. 즉 루프를 닫는 것이 먼저다.
  • PR과 리뷰 결과에는 짧은 설명, 메타데이터, 머메이드·ASCII 다이어그램, HTML 아티팩트를 담아 사람이 문제를 몇 분 만에 파악하도록 돕는다.
  • 컴퓨터 유즈 에이전트에는 자사 웹사이트와 DOM을 아는 전용 스킬을 붙이면 범용 브라우저 조작보다 훨씬 빠르며, 다만 토큰을 많이 소모한다는 점을 감안해야 한다.

자주 묻는 질문

에이전트에서 '빠진 계층'이란 무엇을 말하나?

출시 이후에 시스템이 실제로 잘 도는지 모니터링하고 이해하며 개선하는 영역을 말한다. 대부분의 논의가 출시 시점에서 멈추지만, 발표자는 배포 이후의 이 운영 계층이 제품 자체만큼, 때로는 더 중요하다고 본다.

에이전트가 '성공'했는데도 실패로 볼 수 있는 이유는?

작업을 끝냈다고 사용자에게 도움이 된 것은 아니기 때문이다. 예로 여정을 만들어냈지만 잘못된 서비스를 써서 가격 계산을 여러 번 틀리면 기술적으로는 성공이어도 실제로는 작업에 실패한 것이다.

로그 모니터링을 사람 대신 에이전트에게 맡기면 무엇이 필요한가?

트래젝토리와 코드베이스 접근권을 주고 문제를 진단해 PR을 보내게 하되, 신선한 컨텍스트로 그 PR을 비판적으로 검토하고 집중 테스트를 돌리는 별도의 리뷰 에이전트를 둬 편향 없이 변경을 걸러내야 한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식