AI VIDEO BRIEFING
LLM 벤치마크 7가지 정리: MMLU·HellaSwag·GSM8K부터 MT-Bench까지
AI 언어모델의 우열을 가리는 데 쓰이는 대표 벤치마크 7가지(MMLU, ARC, HellaSwag, Winogrande, TruthfulQA, GSM8K, MT-Bench)의 측정 방식과 한계를 정리했다.

핵심 메시지
쉽게 이해하기
AI 언어모델을 평가하는 일은 영어 교사가 에세이를 채점하는 것과 비슷하다. 90점과 60점은 명확히 구분되지만, 94점과 95점의 차이는 미묘하다. 그런데 기업들의 자존심이 걸려 있어 이 미세한 차이가 중요해진다. 게다가 생성된 텍스트는 평가할 측면이 워낙 많고 자연어를 수치로 환산하기도 어렵다. 그래서 어느 모델이 더 우수한지 가리기 위한 벤치마크가 수백 개나 존재한다.
영상은 텍스트 기반 LLM 평가에 가장 널리 쓰이는 7가지를 소개한다. 먼저 MMLU는 STEM부터 인문학까지 다양한 난이도의 과제를 다루는 객관식 벤치마크로, 손으로 수집한 약 1만 5천 문항으로 구성된다. 범주별 성능을 평균한 뒤 다시 전체를 평균해 최종 점수를 낸다. ARC(AI2 추론 챌린지)는 앨런 AI 연구소가 만든 것으로 쉬운 세트와 도전 세트로 나뉘며, 표준화 시험에서 뽑은 객관식 문제로 과학적 추론을 평가한다.
HellaSwag는 영상 속 행동을 묘사한 글에 이어질 가장 그럴듯한 문장을 네 개 중에서 고르게 한다. 오답 세 개는 '적대적 필터링'으로 만들어 말이 안 되게 했는데, 사람은 약 95% 정확도로 풀고 GPT-4도 약 95%, PaLM 2는 약 87%를 기록했다. Winogrande는 상식 추론 벤치마크로 4만 4천 개의 빈칸 채우기 이지선다 문제를 담고 있어, 정답 확률이 50대 50이라도 데이터가 다른 벤치마크보다 최소 다섯 배 많아 견고하다.
TruthfulQA는 모델이 '지구가 평평하다' 같은 잘못된 통념을 따라하지 않는지 약 800개의 함정 질문으로 확인한다. GSM8K는 8천 5백 개의 기초 수학 문제로, 2~8단계의 다단계 추론을 자연어로 풀게 해 논리와 수리 능력을 동시에 시험한다. 다만 추론 과정은 틀렸는데 최종 답만 맞을 수 있어 암기 가능성이 있지만, 데이터가 학습에 없었다면 그 확률은 낮다.
마지막 MT-Bench는 'LLM을 심판으로 쓰는' 개념을 도입해, 사람보다 훨씬 빠른 GPT-4가 대화와 지시 수행 능력을 평가할 수 있음을 보였다. 8개 주요 범주에 각 10개의 다중 턴 질문, 총 160문항으로 구성되며 순수 능력 시험이라기보다 미세조정·챗봇용 벤치마크에 가깝다. MT-Bench는 챗봇 아레나의 ELO 계산에, 나머지는 오픈 LLM 리더보드에 쓰인다.
주요 인사이트
- 단일 점수 하나로 모델의 우열을 가릴 수 없다는 점이 벤치마크가 수백 개로 늘어난 근본 이유다. 지식, 상식, 추론, 진실성, 수리, 대화 능력은 서로 다른 잣대를 요구한다.
- HellaSwag의 '적대적 필터링'은 사람에게는 쉽지만 모델에게는 함정이 되도록 오답을 설계하는 방식으로, 벤치마크 난도를 높이는 영리한 장치다.
- GSM8K처럼 자연어로 수학을 풀게 하면 정답뿐 아니라 추론 과정을 볼 수 있지만, 과정이 틀렸는데 답이 맞는 경우가 있어 '암기'와 '진짜 추론'을 구분하기 어렵다는 한계도 드러난다.
- MT-Bench가 도입한 'LLM as a judge'는 사람 평가가 느리다는 현실적 제약을 GPT-4로 대체해, 대화형 능력 평가를 자동화하는 새 흐름을 열었다.
- 오픈 LLM 리더보드는 여러 벤치마크의 평균이나 개별 점수로 순위를 매긴다. 모델을 고를 때 하나의 종합 점수보다 평가하려는 능력에 맞는 개별 지표를 봐야 함을 시사한다.
자주 묻는 질문
왜 LLM 평가에 벤치마크가 수백 개나 필요한가?
생성된 텍스트는 평가할 측면이 매우 많고 자연어 성능을 수치로 환산하기 어렵기 때문이다. 지식·상식·추론·진실성·수리·대화 등 서로 다른 능력을 재려다 보니 목적이 다른 벤치마크가 다수 만들어졌다.
MMLU와 GSM8K는 각각 무엇을 측정하나?
MMLU는 STEM부터 인문학까지 폭넓은 주제의 객관식 약 1만 5천 문항으로 모델의 다방면 지식을 측정하고, GSM8K는 8천 5백 개의 기초 수학 문제를 2~8단계의 다단계 추론으로 자연어로 풀게 해 논리와 수리 능력을 함께 측정한다.
MT-Bench는 다른 벤치마크와 무엇이 다른가?
MT-Bench는 사람 대신 GPT-4를 심판으로 써서 대화와 지시 수행 능력을 평가하는 'LLM as a judge' 개념을 도입했다. 8개 범주 총 160문항으로 구성되며, 순수 능력 시험보다 미세조정·챗봇 평가에 가깝고 챗봇 아레나의 ELO 산출에 쓰인다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗