AI VIDEO BRIEFING

대형 LLM vs 소형 모델, 언제 무엇을 써야 할까 비교 정리

AI 모델 크기는 파라미터 수로 측정된다. 대형 모델의 강점과 비용, 빠르게 똑똑해지는 소형 모델의 장점, 그리고 용도별로 어느 쪽을 골라야 하는지 IBM 설명으로 정리했다.

출처: IBM Technology2025년 6월 10일AI 보조 요약

큰 AI가 늘 정답일까? 대형 모델과 소형 모델의 득과 실 영상 대표 이미지

핵심 메시지

AI 모델의 크기는 신경망이 학습하며 조정하는 부동소수점 가중치, 즉 파라미터 수로 측정된다.
파라미터가 많을수록 더 많은 사실과 언어, 복잡한 추론을 담을 수 있지만 연산·에너지·메모리 비용이 기하급수적으로 늘어난다.
소형 모델은 빠르게 발전해, '유능한 일반가'의 기준선(MMLU 60%)을 점점 더 작은 모델이 넘어서고 있다.
대형 모델은 광범위한 코드 생성, 긴 문서 처리, 고품질 다국어 번역처럼 규모가 보상받는 작업에 유리하다.
소형 모델은 온디바이스 AI, 일상적 요약, 사내 챗봇처럼 속도·프라이버시·비용이 중요한 작업에서 오히려 더 낫다.

쉽게 이해하기

LLM의 첫 글자 L은 '크다(Large)'를 뜻하지만, '크다'의 기준은 넓다. 오늘날 언어 모델은 스마트폰에서 통째로 돌아가는 3억 파라미터급 경량 신경망부터, 하이퍼스케일 데이터센터의 GPU 랙이 필요한 수천억~1조에 육박하는 거대 모델까지 폭이 넓다. 여기서 크기는 파라미터, 즉 신경망이 학습 중 조정하는 개별 부동소수점 가중치 수로 측정되며, 이 파라미터들이 모델이 기억하고 추론할 수 있는 모든 것을 담는다.

예를 들어 미스트랄 7B는 약 70억 개의 가중치를 가진 소형 모델이고, 메타의 라마3 400B는 대형으로 분류된다. 일부 프런티어 모델은 5천억 파라미터를 훌쩍 넘기기도 한다. 대체로 파라미터가 늘면 더 많은 사실을 기억하고 더 많은 언어를 지원하며 더 복잡한 추론을 수행할 여지가 커진다. 그러나 그 대가는 비용이다. 학습할 때도, 운영할 때도 연산·에너지·메모리가 기하급수적으로 더 든다. 그래서 '크면 무조건 좋다'가 답은 아니다.

소형 모델의 추격은 벤치마크로 확인된다. 대표적 지표인 MMLU는 수학·역사·법·의학 등 여러 분야에 걸친 1만 5천여 개 객관식 문제로 사실 기억과 문제 해결을 함께 요구한다. 무작위로 찍으면 약 25%, 평범한 일반인은 약 35%, 해당 분야 전문가는 약 90%를 기록한다. 2020년 GPT-3(1,750억 파라미터)는 44%로 평범한 사람보다는 나았지만 숙달과는 거리가 멀었고, 오늘날 최상위 모델은 88%대까지 올라왔다.

주목할 점은 '유능한 일반가'의 실용적 기준선인 60%를 넘어서는 모델이 빠르게 작아진다는 것이다. 2023년 2월에는 라마1 65B가 최소였지만, 7월에는 절반 수준인 라마2 34B가, 9월에는 70억급 미스트랄 7B가, 2024년 3월에는 활성 파라미터 30억 미만인 Qwen 1.5 MoE가 60%를 돌파했다. 즉 유능한 일반가의 행동을 점점 더 작은 크기에 욱여넣는 법을 배워가고 있는 셈이다.

주요 인사이트

어떤 모델을 운영에 투입할지는 작업 부하, 지연 시간 요구, 프라이버시 제약, 그리고 GPU 예산에 따라 달라진다. 정답은 하나가 아니다.
대형 모델은 수십 개 생태계와 다중 파일 프로젝트를 넘나드는 광범위한 코드 생성, 긴 계약서·의료 지침·기술 표준 같은 문서 처리(긴 컨텍스트로 환각을 줄이고 인용 품질을 높임), 고품질 다국어 번역에서 규모의 이점을 발휘한다.
소형 모델은 키보드 예측·음성 명령·오프라인 검색처럼 100밀리초 미만 지연과 엄격한 데이터 프라이버시가 필요한 온디바이스 AI에 적합하다.
일상적 요약도 소형 모델의 강점이다. 한 뉴스 요약 연구에서 미스트랄 7B 인스트럭트는 훨씬 큰 GPT-3.5 터보와 통계적으로 구분되지 않는 ROUGE·BERT 점수를 냈고, 비용과 속도는 30배 유리했다.
사내 챗봇에서는 기업이 7B~13B 모델을 자사 매뉴얼로 파인튜닝해 전문가급 정확도에 근접할 수 있다. IBM은 그래니트 13B 계열이 일반적 기업 Q&A에서 5배 큰 모델의 성능에 필적했다고 밝혔다.

자주 묻는 질문

AI 모델의 '크기'는 무엇으로 측정하나?

파라미터 수로 측정한다. 파라미터는 신경망이 학습하며 조정하는 개별 부동소수점 가중치로, 모델이 기억하고 추론할 수 있는 모든 것을 집합적으로 담는다. 스마트폰용 3억 개부터 1조에 육박하는 규모까지 다양하다.

대형 모델이 소형 모델보다 항상 나은가?

아니다. 파라미터가 많으면 능력 여지가 커지지만 연산·에너지·메모리 비용이 기하급수적으로 늘어난다. 게다가 소형 모델이 빠르게 발전해, MMLU 60% 기준선을 점점 더 작은 모델이 넘어서고 있다.

소형 모델이 더 나은 경우는 언제인가?

100밀리초 미만 지연과 프라이버시가 중요한 온디바이스 AI, 일상적 요약, 자사 데이터로 파인튜닝한 사내 챗봇 등이다. 요약·분류처럼 초점이 좁은 작업에서는 잘 훈련된 소형 모델이 적은 비용으로 품질의 약 90%를 낼 수 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗