AI VIDEO BRIEFING
에이전트 AI 평가 — 벤치마크에서 프로덕션 인프라로의 전환
벤치마크는 모델 ‘능력’을, 프로덕션은 시스템 ‘행동’을 측정한다. 메타 엔지니어가 설명하는, 에이전트 AI 시대에 평가가 SRE식 신뢰성 측정·지속 평가 인프라로 바뀌는 이유.

핵심 메시지
쉽게 이해하기
메타 슈퍼인텔리전스 랩의 인프라를 담당하는 발표자는, ‘평가(evaluation)’라는 단어를 들으면 대부분 벤치마크 점수를 떠올리지만 에이전트 시스템이 그 의미를 근본적으로 바꿨다고 말한다. 오늘날 시스템은 단순히 답을 생성하지 않고 계획하고, 도구를 호출하고, 정보를 검색하고, 워크플로를 실행하며 프로덕션 인프라와 상호작용한다.
거의 모든 AI 조직이 겪는 문제는 ‘오프라인 벤치마크는 계속 좋아지는데 프로덕션 신뢰성은 예측 불가능’하다는 것이다. 벤치마크는 도구 실패, API 장애, 컨텍스트 변화, 사용자 변동성, 장시간 워크플로를 포착하지 못하기 때문이다. 그래서 평가의 초점은 ‘출력’에서 ‘행동’ — 계획 품질, 도구 사용, 실행, 실패 복구, 의사결정 — 으로 옮겨가야 한다.
발표자는 실패 모드를 계층으로 본다. 바닥에는 메모리·검색·안전 실패가, 그 위에는 추론 실수·잘못된 계획·도구 실행 오류가, 가장 위에는 다중 에이전트 협업 실패가 있다. 모델 출력만 평가하면 가장 큰 프로덕션 위험을 놓친다.
사고방식의 전환으로 ‘SRE처럼 생각하기’를 제안한다. 정확도가 아니라 신뢰성·가용성·지연·비용·복구를 본다. 평가 시스템은 피라미드로, 바닥의 벤치마크(확장 가능하지만 운영 가치 제한적), 중간의 시나리오 기반 평가, 정점의 프로덕션 텔레메트리로 구성된다. 가장 가치 있는 신호는 실제 사용자와 실제 시스템의 상호작용에서 나온다.
오프라인 평가는 여전히 중요하지만 ‘프롬프트’가 아니라 ‘시나리오’를 평가한다. 프로덕션에 들어가면 모든 상호작용이 신호가 되고, 사람은 폴백이 아니라 자동화가 줄 수 없는 신뢰·유용성·안전 신호를 주는 평가자다. 시스템은 끊임없이 드리프트하므로 지속 모니터링과 관측가능성(상세 트레이스)이 필수다. 결국 평가는 별도 도구가 아니라 컨트롤 플레인의 일부가 된다.
주요 인사이트
- 에이전트 트레이스는 자율 워크로드를 위한 분산 추적과 같다. 전통적 로그만으로는 추론 경로·도구 호출·메모리 접근·상태 전이를 볼 수 없어 평가가 추측이 된다.
- 가장 중요한 슬라이드에서 모든 지표(작업 완료=가치, 도구 성공=운영 신뢰성, 에스컬레이션=인간 부담, 안전 위반=위험 노출, 지연=경험, 비용=확장성, 복구=회복력)는 비즈니스 성과로 직결되는데, 정작 ‘정확도’는 빠져 있다.
- 신뢰성이 북극성 지표가 되고 정확도는 하나의 입력값일 뿐이다. 비즈니스 성공은 정확도만이 아니라 그보다 훨씬 많은 것에 달려 있기 때문이다.
- 드리프트는 한 번의 변화로 파국이 오지 않고 서서히 진행된다. 성공률이 떨어지고 에스컬레이션·도구 실패가 늘지만, 지속 평가가 없으면 사용자가 불평할 때까지 발견하지 못한다.
- 업계는 평가가 실행 플레인(작업 수행)과 분리된 컨트롤 플레인(관측·텔레메트리 수집·시뮬레이션·인간 검토 조율)으로 가는 아키텍처로 수렴하고 있다.
자주 묻는 질문
벤치마크 점수는 이제 쓸모없는가?
아니다. 발표자는 벤치마크가 여전히 필요하지만 ‘불충분’하다고 본다. 확장 가능하고 반복 가능하지만 도구 실패·API 장애·장시간 워크플로 같은 프로덕션 현실을 담지 못하므로, 시나리오 평가와 프로덕션 텔레메트리로 보완해야 한다.
‘SRE처럼 생각하라’는 말은 무슨 뜻인가?
성공을 정확도로 측정하지 말고, 사이트 신뢰성 엔지니어처럼 신뢰성·가용성·지연·비용·복구로 측정하라는 의미다. 목표는 벤치마크 점수 극대화가 아니라 믿을 수 있는 결과(dependable outcomes)의 극대화다.
왜 프로덕션 트래픽이 평가 데이터가 되는가?
일단 시스템이 프로덕션에 들어가면 모든 상호작용이 신호가 되기 때문이다. 실행 트레이스·사용자 결과·에스컬레이션·실패·피드백을 수집하면, 그것이 조직이 가질 수 있는 가장 크고 대표성 있는 평가 데이터가 된다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗