AI VIDEO BRIEFING

LLM 평가(Evals) 구축 가이드: 단위 테스트·휴먼 검토·LLM-as-a-Judge

에이전트형 AI를 production에서 안정적으로 운영하려면 평가 체계가 필수다. 단위 테스트, 휴먼 검토, LLM-as-a-Judge로 이어지는 3단계 평가 전략을 정리했다.

출처: Dave Ebbelaar2025년 9월 4일AI 보조 요약

AI 에이전트를 신뢰성 있게 만드는 법: LLM 평가(Evals) 체계적으로 구축하기 영상 대표 이미지

핵심 메시지

에이전트형 AI 프로젝트의 상당수가 실패하거나 취소된다는 보고가 있으며, 그 핵심 원인 중 하나는 제대로 된 평가(eval) 체계의 부재다.
LLM은 비결정적이고 맥락에 좌우되며 정답이 여러 개일 수 있어, 한 번의 '해피 패스' 테스트만으로는 신뢰성을 보장할 수 없다.
평가는 비용과 노력이 커지는 순서로 단위 테스트(레벨1) → 휴먼·모델 평가(레벨2) → A/B 테스트(레벨3)의 3단계로 나뉜다.
LLM-as-a-Judge를 쓰기 전에 반드시 사람이 데이터를 직접 보며 기준을 세우고, 사람의 판단과 모델 판단의 일치율을 맞춰가야 한다.
분석(analyze)·측정(measure)·개선(improve)의 반복 사이클을 통해 시스템을 체계적으로 개선하는 것이 핵심이다.

쉽게 이해하기

발표자는 에이전트형 AI 애플리케이션을 잘 만들기가 매우 어렵다는 점에서 출발한다. 화면에 보이는 화려한 데모와 달리, 실제 production에서는 사용자 입력이 예측 불가능하게 들어오고 실패 양상도 미묘해 발견하기 어렵다. 이 간극을 메우는 도구가 바로 평가, 즉 eval이다.

그는 LLM 개발의 세 가지 근본 과제를 제시한다. 첫째는 데이터 이해로, 시스템이 규모에서 실제로 무엇을 받고 어떻게 응답하는지 파악하는 것이다. 둘째는 명세의 간극으로, 원하는 동작을 프롬프트와 코드로 정확히 옮기기 어렵다는 점이다. 셋째는 일관성 없는 동작으로, 표현의 작은 차이가 전혀 다른 출력을 만든다는 점이다.

평가는 비용과 빈도에 따라 세 단계로 구분된다. 레벨1은 빠르고 저렴한 단위 테스트로, 코드나 프롬프트가 바뀔 때마다 돌린다. 레벨2는 사람과 모델이 품질을 비평하는 평가로, 주기적으로 수행한다. 레벨3은 실제 사용자를 대상으로 한 A/B 테스트로, 주요 릴리스나 본격적인 실험에 쓴다.

레벨1 단위 테스트는 파이썬의 assert로 구조화 출력(structured output)을 검증하는 방식이 대표적이다. 예컨대 고객 문의를 분류한 결과 카테고리가 정의된 목록 안에 있는지, 신뢰도 점수가 0과 1 사이의 실수인지 같은 단순한 검증부터 시작한다. 실패 양상을 발견할 때마다 그것을 막는 테스트를 추가해 나간다.

레벨2에서 발표자가 가장 강조하는 것은 자동화 도구로 곧장 넘어가지 말라는 것이다. 먼저 사람, 이상적으로는 도메인 전문가가 입력·출력 쌍을 직접 보고 무엇이 좋은 답인지 판단해야 한다. 그 다음에야 가장 강력한 모델을 'Judge'로 써서 비평을 자동화하되, 사람과 모델의 일치율(agreement)을 추적하며 judge 프롬프트를 계속 다듬어 일치율을 끌어올린다.

발표자는 엑셀 시트로 입력·모델 출력·모델 비평·사람 비평을 나란히 두고 일치율을 계산하는 구체적 절차를 보여준다. 사람 비평을 '골든 스탠더드'로 고정한 뒤, 메타 프롬프팅으로 judge 프롬프트를 최적화해 다음 실행에서 일치율을 높이는 반복이 LLM 애플리케이션 개선의 가장 핵심적인 작업이라고 말한다.

주요 인사이트

평가 지표는 정답을 아는 '참조 기반(reference-based)' 지표와 정답이 여럿일 수 있는 '참조 없는(reference-free)' 지표로 나뉜다. 후자는 톤 적절성, 길이 제약, 환각 여부, 형식 준수 등으로, 점수화가 더 어렵다.
흔한 실수로는 '도구 우선' 사고(문제가 생기면 새 벡터DB나 더 강한 모델부터 찾기), 의미 없는 일반 지표에 매달리기, 데이터를 직접 보지 않고 도구에 맡기기, 검증 없이 LLM judge를 신뢰하기 등이 꼽힌다.
단순하게 시작하는 것이 중요하다. 이진(좋음/나쁨) 판정과 상세한 비평으로 출발해, 무엇을 테스트할지는 실제로 발견한 실패 양상에서 끌어내라는 조언이다.
데이터 드리프트 때문에 '좋은 답'의 기준도 시간이 지나며 변한다. 따라서 휴먼 평가와 모델 평가는 한 번 맞추고 끝나는 것이 아니라 계속 함께 가야 한다.
이 접근은 일반 소프트웨어 공학보다 데이터 과학·ML 엔지니어링의 실험 반복 방식에 더 가깝다. 매 조정마다 일치율 같은 지표를 조금씩 끌어올리는 과정이다.

자주 묻는 질문

LLM 평가는 왜 일반 소프트웨어 테스트만으로 충분하지 않은가?

LLM은 비결정적이고 맥락에 좌우되며, 사실은 맞아도 톤이 어긋날 수 있고 한 질문에 여러 정답이 가능하다. 실패 양상이 미묘해 단순 테스트로는 잡기 어렵기 때문에 별도의 평가 체계가 필요하다.

LLM-as-a-Judge를 처음부터 바로 도입하면 안 되는 이유는?

무엇을 어떻게 점수 매겨야 하는지 사람이 먼저 이해하지 못한 상태에서 모델에게 평가를 맡기면 의미 없는 점수만 나온다. 사람이 데이터를 보고 기준을 세운 뒤, 모델 판단을 사람 판단과 일치시키는 과정을 거쳐야 한다.

평가의 세 단계는 무엇인가?

레벨1은 빠르고 저렴한 단위 테스트, 레벨2는 사람과 모델이 품질을 비평하는 평가, 레벨3은 실제 사용자 대상 A/B 테스트다. 위로 갈수록 비용과 노력이 커지므로 실행 빈도도 달라진다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗