AI VIDEO BRIEFING

LLM 벤치마크란? MMLU·GPQA·퓨샷 등 AI 모델 평가 지표 읽고 비교하는 법

새 AI 모델 발표 때 등장하는 MMLU·GPQA·HumanEval 같은 숫자의 의미를 풀이한다. 각 벤치마크가 무엇을 측정하는지, 퓨샷이 무엇인지, 점수를 어떻게 비교하고 직접 돌려보는지까지 차근차근 정리했다.

AI 모델 비교표의 숫자, 어떻게 읽을까 — LLM 벤치마크 해설 영상 대표 이미지

핵심 메시지

  • 새 모델 발표 때 등장하는 MMLU·GPQA·HumanEval 같은 차트는 표준화된 벤치마크로 성능을 비교한 것이다.
  • MMLU는 57개 분야의 객관식 문제로 학문·전문 지식의 정확도를 측정하며, 최종 점수는 전 분야 평균 정확도다.
  • 'n-shot(퓨샷)'은 실제 질문 전에 같은 주제의 예시 문제와 답을 n개 함께 제공하는 방식으로, 보통 제로샷보다 점수가 높게 나온다.
  • 벤치마크마다 측정 대상이 다르다 — GSM8K(수학 추론), HellaSwag(상식), SWE-bench(실제 코딩), 함수 호출·멀티모달 등 다양하다.
  • 벤치마크는 비슷한 체급 모델 간 비교엔 유용하지만 실제 앱 성능을 모두 보여주진 못하므로, 목적에 맞는 평가를 직접 돌려야 한다.

쉽게 이해하기

발표자는 새 모델이 나올 때마다 따라붙는 거대한 성능 비교표의 숫자들이 무엇을 의미하는지 묻는다. 그는 직접 llama 3.2 1B 모델을 파인튜닝하면서, 이 벤치마크들이 어떻게 만들어지고 어떻게 해석해야 하는지 이해하는 것이 모델 성능을 정확히 보여주는 데 핵심이라는 점을 깨달았다고 말한다.

대표 지표인 MMLU는 컴퓨터 보안, 대학 물리학, 고교 화학 등 57개 분야의 객관식 문제로 구성된다. 각 분야 정확도를 인문·사회·STEM 등으로 묶은 뒤 전체 평균을 최종 점수로 보고한다. 예로 GPT-4o는 약 88.7%, GPT-4 터보는 약 86.5%로, 비슷한 체급 모델끼리 비교하는 데 쓰인다.

'5-shot' 같은 표기는 질문 전에 같은 주제의 예시 5개와 답을 함께 제공한다는 뜻이다. 모델은 보통 제로샷보다 몇 개 예시를 본 뒤에 더 잘 답한다. 이 밖에 표준화 시험 기반의 AGIEval, 수학 추론의 GSM8K, 상식 추론의 HellaSwag, 진실성의 TruthfulQA, 실제 깃허브 이슈를 푸는 SWE-bench, 함수 호출 리더보드, 멀티모달 이해 벤치마크 등 다양한 평가가 소개된다.

중요한 구분은 '모델 벤치마크'와 '애플리케이션 평가'가 다르다는 점이다. 발표자는 자신이 파인튜닝한 40K·15K 모델을 AGIEval, TruthfulQA, MMLU, Arc 등으로 돌려, 더 많은 데이터로 학습한 40K 모델이 AGIEval에서 약 21%에서 23%로 향상된 것을 직접 비교해 보인다.

직접 실행 방법으로는 EleutherAI의 LM Evaluation Harness를 사용한다. Arc Challenge를 25-shot으로 돌릴 때, 텍스트를 생성하는 대신 각 보기의 정답 확률(로그우도)을 비교하는 방식이라 효율적이다. 파인튜닝한 모델은 기본 모델의 32.8%보다 약 6%포인트 높은 정확도를 기록했고, Open LLM 리더보드 같은 공개 순위표의 구성도 함께 설명한다.

주요 인사이트

  • 벤치마크 점수는 절대값보다 비슷한 체급의 다른 모델과의 '비교'로 해석해야 의미가 있다.
  • 퓨샷 개수나 연산 정밀도(fp16 등) 같은 설정이 점수에 영향을 주므로, 동일 조건에서 비교하는 것이 중요하다.
  • 객관식 벤치마크는 답을 생성하는 대신 정답 토큰의 확률(로그우도)을 비교해 채점하므로 연산이 효율적이다.
  • 모델 벤치마크와 실제 애플리케이션 성능 평가는 별개이므로, 용도에 맞는 평가를 따로 설계해야 한다.
  • LM Evaluation Harness 같은 오픈소스 도구로 누구나 표준 벤치마크를 재현하고 모델을 직접 비교할 수 있다.

자주 묻는 질문

MMLU 점수는 어떻게 계산되나?

57개 분야의 객관식 문제 정확도를 측정한 뒤 전 분야의 평균 정확도를 최종 점수로 보고한다. 예로 GPT-4o는 약 88.7%다.

'n-shot' 또는 '퓨샷'이 무엇인가?

실제 질문 전에 같은 주제의 예시 문제와 정답을 n개 함께 제공하는 방식이다. 모델은 보통 제로샷보다 예시를 본 뒤 성능이 더 높게 나온다.

벤치마크 점수만 믿으면 되나?

각 벤치마크는 특정 능력 하나만 보여줄 뿐 실제 애플리케이션 성능 전체를 담지 못한다. 원하는 능력이 있다면 목적에 맞는 평가를 직접 돌려보는 것이 좋다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식