AI VIDEO BRIEFING

LLM 벤치마크란? MMLU·GPQA·퓨샷 등 AI 모델 평가 지표 읽고 비교하는 법

새 AI 모델 발표 때 등장하는 MMLU·GPQA·HumanEval 같은 숫자의 의미를 풀이한다. 각 벤치마크가 무엇을 측정하는지, 퓨샷이 무엇인지, 점수를 어떻게 비교하고 직접 돌려보는지까지 차근차근 정리했다.

출처: Adam Lucek2024년 12월 2일AI 보조 요약

AI 모델 비교표의 숫자, 어떻게 읽을까 — LLM 벤치마크 해설 영상 대표 이미지

핵심 메시지

새 모델 발표 때 등장하는 MMLU·GPQA·HumanEval 같은 차트는 표준화된 벤치마크로 성능을 비교한 것이다.
MMLU는 57개 분야의 객관식 문제로 학문·전문 지식의 정확도를 측정하며, 최종 점수는 전 분야 평균 정확도다.
'n-shot(퓨샷)'은 실제 질문 전에 같은 주제의 예시 문제와 답을 n개 함께 제공하는 방식으로, 보통 제로샷보다 점수가 높게 나온다.
벤치마크마다 측정 대상이 다르다 — GSM8K(수학 추론), HellaSwag(상식), SWE-bench(실제 코딩), 함수 호출·멀티모달 등 다양하다.
벤치마크는 비슷한 체급 모델 간 비교엔 유용하지만 실제 앱 성능을 모두 보여주진 못하므로, 목적에 맞는 평가를 직접 돌려야 한다.

쉽게 이해하기

발표자는 새 모델이 나올 때마다 따라붙는 거대한 성능 비교표의 숫자들이 무엇을 의미하는지 묻는다. 그는 직접 llama 3.2 1B 모델을 파인튜닝하면서, 이 벤치마크들이 어떻게 만들어지고 어떻게 해석해야 하는지 이해하는 것이 모델 성능을 정확히 보여주는 데 핵심이라는 점을 깨달았다고 말한다.

대표 지표인 MMLU는 컴퓨터 보안, 대학 물리학, 고교 화학 등 57개 분야의 객관식 문제로 구성된다. 각 분야 정확도를 인문·사회·STEM 등으로 묶은 뒤 전체 평균을 최종 점수로 보고한다. 예로 GPT-4o는 약 88.7%, GPT-4 터보는 약 86.5%로, 비슷한 체급 모델끼리 비교하는 데 쓰인다.

'5-shot' 같은 표기는 질문 전에 같은 주제의 예시 5개와 답을 함께 제공한다는 뜻이다. 모델은 보통 제로샷보다 몇 개 예시를 본 뒤에 더 잘 답한다. 이 밖에 표준화 시험 기반의 AGIEval, 수학 추론의 GSM8K, 상식 추론의 HellaSwag, 진실성의 TruthfulQA, 실제 깃허브 이슈를 푸는 SWE-bench, 함수 호출 리더보드, 멀티모달 이해 벤치마크 등 다양한 평가가 소개된다.

중요한 구분은 '모델 벤치마크'와 '애플리케이션 평가'가 다르다는 점이다. 발표자는 자신이 파인튜닝한 40K·15K 모델을 AGIEval, TruthfulQA, MMLU, Arc 등으로 돌려, 더 많은 데이터로 학습한 40K 모델이 AGIEval에서 약 21%에서 23%로 향상된 것을 직접 비교해 보인다.

직접 실행 방법으로는 EleutherAI의 LM Evaluation Harness를 사용한다. Arc Challenge를 25-shot으로 돌릴 때, 텍스트를 생성하는 대신 각 보기의 정답 확률(로그우도)을 비교하는 방식이라 효율적이다. 파인튜닝한 모델은 기본 모델의 32.8%보다 약 6%포인트 높은 정확도를 기록했고, Open LLM 리더보드 같은 공개 순위표의 구성도 함께 설명한다.

주요 인사이트

벤치마크 점수는 절대값보다 비슷한 체급의 다른 모델과의 '비교'로 해석해야 의미가 있다.
퓨샷 개수나 연산 정밀도(fp16 등) 같은 설정이 점수에 영향을 주므로, 동일 조건에서 비교하는 것이 중요하다.
객관식 벤치마크는 답을 생성하는 대신 정답 토큰의 확률(로그우도)을 비교해 채점하므로 연산이 효율적이다.
모델 벤치마크와 실제 애플리케이션 성능 평가는 별개이므로, 용도에 맞는 평가를 따로 설계해야 한다.
LM Evaluation Harness 같은 오픈소스 도구로 누구나 표준 벤치마크를 재현하고 모델을 직접 비교할 수 있다.

자주 묻는 질문

MMLU 점수는 어떻게 계산되나?

57개 분야의 객관식 문제 정확도를 측정한 뒤 전 분야의 평균 정확도를 최종 점수로 보고한다. 예로 GPT-4o는 약 88.7%다.

'n-shot' 또는 '퓨샷'이 무엇인가?

실제 질문 전에 같은 주제의 예시 문제와 정답을 n개 함께 제공하는 방식이다. 모델은 보통 제로샷보다 예시를 본 뒤 성능이 더 높게 나온다.

벤치마크 점수만 믿으면 되나?

각 벤치마크는 특정 능력 하나만 보여줄 뿐 실제 애플리케이션 성능 전체를 담지 못한다. 원하는 능력이 있다면 목적에 맞는 평가를 직접 돌려보는 것이 좋다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗