AI TOPIC

MMLU 최신 뉴스와 핵심 해설

MMLU 관련 핵심 뉴스와 활용 인사이트 2편을 최신순으로 모았습니다.

Balaji Chippada2026. 6. 25.

LLM 벤치마크 완전 해설: MMLU·GPQA·SWE-Bench와 모델 선택법

MMLU 점수는 최상위 모델들이 89~92%로 거의 같다. 벤치마크의 한계와 데이터 오염, 챗봇 아레나, LLM 심사 방식까지 정리하고 용도에 맞는 모델을 고르는 3단계 방법을 소개한다.

Adam Lucek2026. 6. 21.

새 AI 모델 발표 때 등장하는 MMLU·GPQA·HumanEval 같은 숫자의 의미를 풀이한다. 각 벤치마크가 무엇을 측정하는지, 퓨샷이 무엇인지, 점수를 어떻게 비교하고 직접 돌려보는지까지 차근차근 정리했다.