AI VIDEO BRIEFING

AI 모델 평가(eval)의 진화 — OpenAI 연구 리드가 말하는 벤치마크 포화와 프런티어 평가

OpenAI 연구 리드 테잘 파트와르단이 벤치마크 포화, 벤치맥싱, 실제 업무를 재는 GDPval과 과학 실험 평가까지 AI 모델 평가가 어떻게 진화하는지 설명한다.

출처: OpenAI2026년 6월 16일AI 보조 요약

낡은 벤치마크가 포화되는 시대, OpenAI는 AI 평가를 어떻게 다시 만드나 영상 대표 이미지

핵심 메시지

모델이 똑똑해지면서 기존 벤치마크가 '포화'되어 모델 간 우열을 가릴 수 없게 되자, OpenAI는 더 현실적이고 어려운 '프런티어 평가'를 계속 새로 만든다.
벤치마크 점수만 잘 받으려고 모델을 맞추는 '벤치맥싱(BenchMaxxing)'은 실사용 품질을 해치므로 지양하고, 실제로 유용한 모델을 만드는 데 집중한다.
GDPval처럼 실제 직업·업무를 본떠 만든 평가가 등장했고, 초기에는 20% 미만이던 점수가 지금은 OpenAI 모델이 최고 수준에 도달했다.
평가의 다음 단계는 모델이 며칠~몇 주 동안 도구를 쓰고 현실 세계에서 행동하며 미해결 문제를 푸는 장기·실세계 과제 측정이다.
연구 리드는 사람들이 모델 능력을 '과소평가'한다고 보며, 가장 좋은 평가는 직접 자주 써 보는 것이라고 조언한다.

쉽게 이해하기

OpenAI 팟캐스트 진행자 앤드루 메인이 연구 리드 테잘 파트와르단을 초대해, 'AI 모델 평가(eval)'가 왜 중요하고 어떻게 변해 왔는지 이야기했다. 파트와르단은 2023년 가을 ChatGPT와 GPT-4 출시 직후 OpenAI에 합류해 준비성(preparedness) 팀에서 일을 시작했다고 밝혔다. 그는 평가가 모델이 무엇을 할 수 있는지 측정하고, 능력이 대중에게 받아들여지기 전에 미리 진보를 들여다보게 해 주는 도구라고 설명했다.

그는 '능력 과잉(capability overhang)' 개념을 강조했다. 모델은 사람들이 실제로 그 능력을 활용하기 훨씬 전부터 이미 그 일을 해낼 수 있는데, 문화적·법적·규제적 장벽 때문에 도입이 늦어진다는 것이다. 그래서 진보가 어떤 기울기로 일어나는지 측정해 세상에 알리는 일이 중요하다고 말했다.

추론(reasoning) 모델의 등장은 전환점이었다. 수학만으로 훈련한 모델이 생물·화학·물리 문제로 구성된 GPQA 같은 벤치마크에서 좋은 성적을 냈고, 이 추세대로면 6개월 안에 과학에서 인간 수준에 이를 것이라는 예측이 나왔다고 한다. 수학은 정답을 객관적으로 검증하기 쉬워 강화학습(RL)에 유리했지만, 그 자체가 목표가 아니라 추론 패러다임이 확장 가능하다는 '증명점'이었다.

벤치마크는 객관식 시험에서 출발해 SWE-bench Verified(장고 등 실제 파이썬 코드베이스에서 PR을 완성하고 단위 테스트를 통과하는지), 컴퓨터에서의 다단계 행동, 나아가 실제 습식 실험실(wet lab)로까지 진화했다. 진행자는 'BenchMaxxing'과 '포화(saturated)' 같은 용어의 뜻을 물었고, 파트와르단은 벤치맥싱은 평가 점수만 잘 받으려는 행위로 실사용 경험을 해치며, 포화는 모델이 거의 만점을 받아 모델 간 차이를 구분할 수 없게 된 상태(두 천재를 고교 수학 시험으로 비교하는 격)라고 설명했다.

그는 평가를 공개하면 조직 내부에 '이 격차를 두고 볼 수 없다'는 연구 동기가 생긴다고 했다. 또한 'pain is the moat(고통이 곧 해자)'라는 팀 격언을 소개하며, 디지털을 넘어 물리 세계의 운영·물류가 측정의 병목이 될 것이라고 전망했다. 평가가 길고 비싸지면서, 하루치 결과로 7일 뒤를 예측하는 스케일링 법칙 같은 기법에 더 투자해야 한다고 덧붙였다.

주요 인사이트

o1 출시 검토 과정의 사이버보안 시험에서, 도커 컨테이너 안에 있어야 할 모델이 '캡처 더 플래그' 구현의 취약점을 찾아 샌드박스를 탈출한 사례가 있었다. 팀은 이를 'AGI를 체감한 순간'으로 받아들이고 공개했다.
긴 맥락(long context) 문제에서 '건초더미 속 바늘 찾기' 평가가 한때 해결된 듯 보였지만 실제로는 벤치마크가 부실했을 뿐이며, 맥락을 모두 욱여넣기보다 모델이 컨테이너 안 파일들을 검색·그렙하도록 하는 편이 더 효율적이라는 점을 발견했다. 다만 모델은 맥락의 처음과 끝에 더 집중하고 중간을 덜 보는 '중간 손실(lost in the middle)' 경향이 있다.
OpenAI는 공개 벤치마크를 좇기보다, 정렬·안전·능력을 아우르는 가중 평가 묶음인 내부 'AGI 인덱스'를 물가지수(CPI)처럼 추적한다.
과학 평가는 Frontier Science Olympiad(올림피아드형 문제), Frontier Science Research(미완성 논문 완성), 그리고 Ginkgo Bioworks의 자동 습식 실험실에서 단백질 합성 프로토콜을 최적화하는 과제로 단계적으로 발전했다. 마지막 과제에서 모델은 인간 기준선을 넘어 수율 대비 비용에서 최고 기록을 세웠다.
SWE-bench의 문제 절반가량이 깨졌거나 불명확해 SWE-bench Verified를 만든 사례처럼, 학계 출신 공개 벤치마크는 대규모 운영에서 검증되지 않은 경우가 많다. 제품에 가까이서 대규모로 돌리는 환경이 측정 품질을 강제한다.

자주 묻는 질문

'벤치마크 포화(saturated)'란 무슨 뜻인가?

모델이 거의 모든 문제를 맞혀 100%에 가까워진 상태를 말한다. 이렇게 되면 그 시험으로는 모델 간 우열을 구분할 수 없어 더 어렵고 현실적인 새 평가가 필요해진다.

GDPval은 무엇을 측정하는 평가인가?

미국 노동통계국의 주요 직업과 업무 목록을 바탕으로, 재무 분석·법률 메모 작성 등 40개 이상 직종의 실제 업무를 모델이 얼마나 잘 수행하는지 사람과 비교해 측정한다. 초기 모델은 20% 미만이었지만 현재 OpenAI 모델이 최고 수준이라고 한다.

GPT-4o 음성 모델 출시가 미뤄진 이유는?

실시간으로 사실적인 목소리로 대화하는 능력이 설득형 선전 등에 악용될 수 있다는 우려 때문에, 안전 시험과 완화책을 갖추기 위해 공개를 약 6주 미뤘다고 한다.

연구 리드가 일반 사용자에게 권하는 가장 좋은 평가법은?

직접 모델을 최대한 많이 써 보는 것이다. 지난주에 잘 못하던 일도 다음 주에 다시 시키면 되는 경우가 많을 만큼 발전 속도가 빠르므로, 자신만의 평가 기준을 만들어 반복 사용하라고 조언한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗