AI VIDEO BRIEFING

LLM 아키텍처 비교 2025: 딥시크 MLA, 혼합 전문가, 슬라이딩 윈도우 어텐션

세바스찬 라슈카가 딥시크 V3, OLMo 2, Gemma 3, Qwen 3, Kimi 2, GPT-OSS, GLM 4.5 등 2025년 공개된 주요 LLM 아키텍처의 핵심 설계 차이를 도식으로 비교해 알기 쉽게 설명합니다.

출처: Sebastian Raschka2025년 9월 10일AI 보조 요약

2025년 주요 LLM 아키텍처 한눈에 비교: 딥시크부터 GLM까지 무엇이 달라졌나 영상 대표 이미지

핵심 메시지

GPT 아키텍처 공개 후 7년이 지났지만, 최신 LLM들은 여전히 같은 트랜스포머 골격에 몇 가지 변형을 더한 형태다.
딥시크 V3는 멀티헤드 잠재 어텐션(MLA)으로 KV 캐시를 크게 줄이고, 혼합 전문가(MoE)로 6710억 파라미터 중 일부만 활성화한다.
Gemma 3는 슬라이딩 윈도우 어텐션으로 장문 컨텍스트의 메모리 비용을 낮추고, OLMo 2와 함께 정규화 계층 위치를 다시 실험한다.
Qwen 3, SmolLM3, Kimi 2, GPT-OSS, Grok 2.5, GLM 4.5 등은 전문가 수·깊이·너비·공유 전문가 유무에서 서로 다른 선택을 한다.
결국 아키텍처 차이는 미세한 조정 수준이며, 모델 품질을 가르는 더 큰 변수는 공개되지 않는 학습 데이터일 가능성이 크다.

쉽게 이해하기

발표자는 'Build a Large Language Model from Scratch'의 저자 세바스찬 라슈카로, 2025년 한 해 쏟아진 LLM 아키텍처 11~12종을 도식 중심으로 비교한다. 학습 방법이 아닌 아키텍처 자체에 집중하며, 설령 모두 비슷하다는 결론이 나오더라도 그 자체가 유용한 지식이라고 본다.

출발점은 딥시크 V3/R1이다. 핵심은 멀티헤드 잠재 어텐션(MLA)으로, 키와 밸류를 더 작은 차원으로 압축해 KV 캐시에 저장한 뒤 추론 시 다시 펼친다. 추가 연산이 들지만 메모리를 크게 아끼며, 그룹 쿼리 어텐션(GQA)과 달리 성능 저하 없이 오히려 약간의 개선을 보였다고 설명한다. 또 하나의 축은 혼합 전문가(MoE)로, 256개의 피드포워드 전문가 중 공유 전문가 1개와 8개만 활성화해 6710억 파라미터 모델을 추론 시 370억 파라미터 수준으로 돌린다.

이어 OLMo 2는 투명한 기술 보고서와 어블레이션으로 유명한 모델로, 정규화 계층을 잔차 블록 안쪽의 포스트노름 형태로 옮기고 QK 노름을 추가해 학습 손실의 스파이크를 줄였다. Gemma 3는 슬라이딩 윈도우 어텐션을 5:1 비율로 적용해 각 토큰이 좌우 일부만 보게 함으로써 KV 캐시 메모리를 줄이면서도 성능 저하를 거의 일으키지 않으며, 프리노름과 포스트노름을 함께 쓰는 등 정규화를 풍부하게 둔다.

Mistral Small 3.1은 더 넓고 얕은 구조로 추론 속도를 높였고, Llama 4 Maverick은 적은 수의 큰 전문가를 쓴다. Qwen 3는 Apache 2 라이선스와 다양한 크기로 가장 널리 쓰이는 오픈 웨이트 모델이 되었으며, 밀집형과 MoE형을 모두 제공하지만 공유 전문가는 쓰지 않는다. SmolLM3는 네 번째 층마다 위치 임베딩을 빼는 NoPE를 적용해 길이 일반화를 노린다.

Kimi 2는 1조 파라미터 오픈 웨이트 모델로, 새로운 Muon 옵티마이저로 매끄러운 손실 곡선을 보였다. GPT-OSS는 OpenAI가 GPT-2 이후 6년 만에 낸 오픈 웨이트 모델로 함수 호출을 염두에 두고 학습되었고, 적은 수의 넓은 전문가와 바이어스 벡터 재도입 같은 특징이 있다. 마지막으로 다시 공개된 프로덕션 모델 Grok 2.5와, 공유 전문가를 갖춘 매우 깊은 GLM 4.5까지 다룬다.

주요 인사이트

MLA, GQA, 슬라이딩 윈도우 어텐션은 서로 배타적이지 않고 한 모델에서 함께 조합해 쓸 수 있다. 모두 KV 캐시 메모리 부담을 줄이려는 서로 다른 접근이다.
정규화 계층을 어디에 두느냐(프리노름·포스트노름·QK 노름)는 학습 안정성에 직접 영향을 주며, OLMo 2와 Gemma 3는 손실 스파이크를 줄이기 위해 그 위치를 다시 실험했다.
혼합 전문가의 추세는 소수의 큰 전문가에서 다수의 작은 '세분화된' 전문가로, 그리고 항상 활성화되는 공유 전문가를 두는 방향으로 이동하고 있다.
같은 크기대에서도 너비를 키우는 설계(Llama)와 깊이를 키우는 설계(Qwen 3)는 메모리·속도에서 서로 다른 트레이드오프를 낳는다. 층이 깊을수록 순차 계산이 늘어 토큰 생성 속도가 느려진다.
여러 아키텍처가 제각각의 변형을 두고도 모두 꽤 좋은 성능을 낸다는 점은, 트랜스포머가 작은 변경에 견고하며 진짜 차이는 학습 데이터에서 비롯됨을 시사한다.

자주 묻는 질문

멀티헤드 잠재 어텐션(MLA)은 무엇을 해결하나요?

키와 밸류를 더 작은 차원으로 압축해 KV 캐시에 저장하고 추론 시 다시 펼치는 방식으로, 추가 연산을 감수하는 대신 추론 시 메모리 사용량을 크게 줄입니다. 영상에서는 GQA와 달리 성능 저하 없이 오히려 약간 개선되었다고 설명합니다.

혼합 전문가(MoE)는 왜 큰 모델을 효율적으로 만들 수 있나요?

전체 파라미터를 늘려 모델의 학습 용량을 키우되, 추론 시에는 라우터가 토큰마다 일부 전문가만 활성화하기 때문입니다. 딥시크 V3는 6710억 파라미터 중 약 370억만 활성화해 약 20배 작은 비용으로 추론합니다.

슬라이딩 윈도우 어텐션은 어떤 이점이 있나요?

각 토큰이 전체가 아니라 좌우 일정 범위만 보게 제한해 KV 캐시 메모리와 연산을 줄입니다. Gemma 3는 5:1 비율로 적용했고, 이 설정이 퍼플렉서티에 거의 영향을 주지 않았다고 합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗