AI VIDEO BRIEFING

LLM 벤치마크 7가지 정리: MMLU·HellaSwag·GSM8K부터 MT-Bench까지

AI 언어모델의 우열을 가리는 데 쓰이는 대표 벤치마크 7가지(MMLU, ARC, HellaSwag, Winogrande, TruthfulQA, GSM8K, MT-Bench)의 측정 방식과 한계를 정리했다.

출처: bycloud2024년 1월 9일AI 보조 요약

LLM 성능은 무엇으로 매기나: 자주 쓰이는 7가지 벤치마크 해설 영상 대표 이미지

핵심 메시지

자연어 성능을 숫자로 환산하기 어렵기 때문에, 어느 AI 모델이 더 뛰어난지 가리려고 수백 개의 벤치마크가 존재한다.
MMLU는 STEM부터 인문학까지 폭넓은 주제의 객관식 약 1만 5천 문항으로 모델의 다방면 지식을 평가한다.
HellaSwag는 적대적 필터링으로 만든 오답 속에서 가장 그럴듯한 문장 이어쓰기를 고르게 하며, 사람과 GPT-4가 약 95% 정확도를 보인다.
GSM8K는 초등 수준의 다단계 수학 문제를 자연어로 풀게 해 모델의 논리와 수리 능력을 함께 시험한다.
MT-Bench는 'LLM을 심판으로 쓰는' 개념을 도입해 GPT-4가 사람을 대신해 대화·지시 수행 능력을 평가하며, 챗봇 아레나의 ELO 산출에 쓰인다.

쉽게 이해하기

AI 언어모델을 평가하는 일은 영어 교사가 에세이를 채점하는 것과 비슷하다. 90점과 60점은 명확히 구분되지만, 94점과 95점의 차이는 미묘하다. 그런데 기업들의 자존심이 걸려 있어 이 미세한 차이가 중요해진다. 게다가 생성된 텍스트는 평가할 측면이 워낙 많고 자연어를 수치로 환산하기도 어렵다. 그래서 어느 모델이 더 우수한지 가리기 위한 벤치마크가 수백 개나 존재한다.

영상은 텍스트 기반 LLM 평가에 가장 널리 쓰이는 7가지를 소개한다. 먼저 MMLU는 STEM부터 인문학까지 다양한 난이도의 과제를 다루는 객관식 벤치마크로, 손으로 수집한 약 1만 5천 문항으로 구성된다. 범주별 성능을 평균한 뒤 다시 전체를 평균해 최종 점수를 낸다. ARC(AI2 추론 챌린지)는 앨런 AI 연구소가 만든 것으로 쉬운 세트와 도전 세트로 나뉘며, 표준화 시험에서 뽑은 객관식 문제로 과학적 추론을 평가한다.

HellaSwag는 영상 속 행동을 묘사한 글에 이어질 가장 그럴듯한 문장을 네 개 중에서 고르게 한다. 오답 세 개는 '적대적 필터링'으로 만들어 말이 안 되게 했는데, 사람은 약 95% 정확도로 풀고 GPT-4도 약 95%, PaLM 2는 약 87%를 기록했다. Winogrande는 상식 추론 벤치마크로 4만 4천 개의 빈칸 채우기 이지선다 문제를 담고 있어, 정답 확률이 50대 50이라도 데이터가 다른 벤치마크보다 최소 다섯 배 많아 견고하다.

TruthfulQA는 모델이 '지구가 평평하다' 같은 잘못된 통념을 따라하지 않는지 약 800개의 함정 질문으로 확인한다. GSM8K는 8천 5백 개의 기초 수학 문제로, 2~8단계의 다단계 추론을 자연어로 풀게 해 논리와 수리 능력을 동시에 시험한다. 다만 추론 과정은 틀렸는데 최종 답만 맞을 수 있어 암기 가능성이 있지만, 데이터가 학습에 없었다면 그 확률은 낮다.

마지막 MT-Bench는 'LLM을 심판으로 쓰는' 개념을 도입해, 사람보다 훨씬 빠른 GPT-4가 대화와 지시 수행 능력을 평가할 수 있음을 보였다. 8개 주요 범주에 각 10개의 다중 턴 질문, 총 160문항으로 구성되며 순수 능력 시험이라기보다 미세조정·챗봇용 벤치마크에 가깝다. MT-Bench는 챗봇 아레나의 ELO 계산에, 나머지는 오픈 LLM 리더보드에 쓰인다.

주요 인사이트

단일 점수 하나로 모델의 우열을 가릴 수 없다는 점이 벤치마크가 수백 개로 늘어난 근본 이유다. 지식, 상식, 추론, 진실성, 수리, 대화 능력은 서로 다른 잣대를 요구한다.
HellaSwag의 '적대적 필터링'은 사람에게는 쉽지만 모델에게는 함정이 되도록 오답을 설계하는 방식으로, 벤치마크 난도를 높이는 영리한 장치다.
GSM8K처럼 자연어로 수학을 풀게 하면 정답뿐 아니라 추론 과정을 볼 수 있지만, 과정이 틀렸는데 답이 맞는 경우가 있어 '암기'와 '진짜 추론'을 구분하기 어렵다는 한계도 드러난다.
MT-Bench가 도입한 'LLM as a judge'는 사람 평가가 느리다는 현실적 제약을 GPT-4로 대체해, 대화형 능력 평가를 자동화하는 새 흐름을 열었다.
오픈 LLM 리더보드는 여러 벤치마크의 평균이나 개별 점수로 순위를 매긴다. 모델을 고를 때 하나의 종합 점수보다 평가하려는 능력에 맞는 개별 지표를 봐야 함을 시사한다.

자주 묻는 질문

왜 LLM 평가에 벤치마크가 수백 개나 필요한가?

생성된 텍스트는 평가할 측면이 매우 많고 자연어 성능을 수치로 환산하기 어렵기 때문이다. 지식·상식·추론·진실성·수리·대화 등 서로 다른 능력을 재려다 보니 목적이 다른 벤치마크가 다수 만들어졌다.

MMLU와 GSM8K는 각각 무엇을 측정하나?

MMLU는 STEM부터 인문학까지 폭넓은 주제의 객관식 약 1만 5천 문항으로 모델의 다방면 지식을 측정하고, GSM8K는 8천 5백 개의 기초 수학 문제를 2~8단계의 다단계 추론으로 자연어로 풀게 해 논리와 수리 능력을 함께 측정한다.

MT-Bench는 다른 벤치마크와 무엇이 다른가?

MT-Bench는 사람 대신 GPT-4를 심판으로 써서 대화와 지시 수행 능력을 평가하는 'LLM as a judge' 개념을 도입했다. 8개 범주 총 160문항으로 구성되며, 순수 능력 시험보다 미세조정·챗봇 평가에 가깝고 챗봇 아레나의 ELO 산출에 쓰인다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗