AI VIDEO BRIEFING

2025년 LLM 지형도 총정리 — MoE·MLA·슬라이딩 윈도우와 트랜스포머의 대안들

세바스찬 라쉬카가 2025년 주요 오픈웨이트 LLM의 효율화 기법(GQA·MLA·슬라이딩 윈도우·MoE)과 함께 확산 모델·맘바·RWKV 등 트랜스포머의 여러 대안들을 한국 독자 눈높이로 차근차근 정리한다.

출처: Sebastian Raschka2025년 10월 27일AI 보조 요약

2025년 LLM 지형도: 효율화 기법과 트랜스포머의 대안들 영상 대표 이미지

핵심 메시지

2025년 주류 오픈웨이트 LLM은 모델을 키우면서 동시에 추론 비용을 낮추는 두 흐름을 함께 좇았다.
GQA·MLA·슬라이딩 윈도우는 KV 캐시를 줄이는 대표 기법이며, 이제 거의 모든 큰 모델이 한 가지 이상을 쓴다.
전문가 혼합(MoE)은 전체 파라미터는 키우되 추론 때는 일부 전문가만 켜서, 딥시크 v3는 6710억 중 370억만 활성화한다.
계층적 추론 모델·코드 월드 모델·텍스트 확산 모델·리퀴드 파운데이션 모델 등 트랜스포머의 대안이 활발히 시도되고 있다.
RWKV·맘바·xLSTM 같은 순환·상태공간 계열은 KV 캐시가 없어 긴 문맥에 저렴하지만, 긴 추론 과제에서는 아직 정확도가 떨어진다.

쉽게 이해하기

세바스찬 라쉬카는 20분짜리 강연에서 2025년 LLM 지형도를 정리한다. 딥시크 v3부터 GLM 4.6까지 이어지는 주류는 트랜스포머 기반 오픈웨이트 모델이며, 올해의 한 흐름은 모델을 키우는 것이었다. 딥시크 v3가 약 6000억, 키미 K2가 1조 파라미터에 이른다.

더 중요한 흐름은 추론 비용을 낮추는 일이었다. 데이터센터에서라도 감당 가능하게 만들기 위해 여러 기법이 쓰였다. 키·값을 공유하는 그룹 쿼리 어텐션(GQA), 키·값을 압축 저장하는 다중 헤드 잠재 어텐션(MLA), 과거를 보는 범위를 제한하는 슬라이딩 윈도우 어텐션이 대표적이며, 젬마3는 5:1 비율로 윈도우와 전체 어텐션을 섞는다.

거의 모든 큰 모델이 채택한 또 하나의 기법은 전문가 혼합(MoE)이다. 하나의 피드포워드 모듈을 여러 개로 늘려 두고(딥시크 v3는 256개) 추론 때는 공유 전문가 1개와 8개 등 일부만 켠다. 덕분에 학습 때는 6710억 파라미터에 지식을 담되, 토큰마다 370억만 활성화해 비용을 아낀다.

후반부에서 그는 트랜스포머의 ‘대안’들을 짚는다. 스도쿠·미로·ARC 퍼즐에 강한 계층적/소형 추론 모델은 범용 대화는 못 하는 특수 목적 모델이다. 코드 월드 모델은 코드 실행 과정을 모사해 내부 변수까지 이해하려 한다. 텍스트 확산 모델은 병렬 생성이 강점이지만 답을 왼쪽부터 읽어 내려가기 어렵다는 한계가 있다.

리퀴드 파운데이션 모델(미분방정식 기반), 트랜스포머-RNN 하이브리드(RWKV), 맘바 같은 상태공간 모델, xLSTM도 소개된다. 이들은 KV 캐시가 없어 긴 문맥에서 메모리가 일정하다는 장점이 있지만, 모든 정보를 잠재 표현에 압축하다 보니 긴 추론·대화 과제에서는 아직 상위 모델보다 정확도가 낮다.

주요 인사이트

‘더 크게’와 ‘더 싸게’가 충돌하지 않도록, 2025년 모델들은 효율화 기법을 최소 하나 이상 기본으로 깔았다.
MoE는 전체 용량과 추론 비용을 분리한다. 많은 지식을 담아 두되 과제마다 필요한 전문가만 켜서 실제 연산량을 크게 줄인다.
트랜스포머는 도구와 이론, 스케일링 법칙이 잘 갖춰져 검증됐기 때문에, 라쉬카는 실무라면 여전히 주류 모델을 택하겠다고 말한다.
RWKV·맘바 같은 대안은 긴 문맥에서 비용이 늘지 않는 대신, 무한한 정보를 잠재 공간에 압축할 수 없어 정확도 손해를 감수해야 한다.
상태공간 모델은 순수형의 한계 탓에 트랜스포머와 섞은 하이브리드로 진화했고, 일부는 리더보드 상위권에 진입할 만큼 좋아졌다.

자주 묻는 질문

전문가 혼합(MoE)은 왜 비용을 아끼나요?

피드포워드 모듈을 여러 ‘전문가’로 늘려 두고 추론 때는 일부만 활성화하기 때문입니다. 딥시크 v3는 256개 전문가 중 토큰마다 9개만 써서, 전체 6710억 파라미터 중 370억만 실제로 동작합니다.

RWKV나 맘바 같은 대안의 장단점은 무엇인가요?

이들은 KV 캐시 대신 RNN 같은 중간 표현을 써서 문맥이 길어져도 메모리가 거의 일정하다는 장점이 있습니다. 다만 모든 정보를 잠재 공간에 압축해야 해서, 긴 추론이나 대화 과제에서는 상위 트랜스포머 모델보다 정확도가 떨어집니다.

텍스트 확산 모델의 한계는 무엇인가요?

여러 토큰을 동시에 생성한 뒤 다듬는 방식이라 병렬 생성이 강점이지만, 생성이 끝날 때까지 기다려야 해서 답을 왼쪽부터 차례로 읽어 내려가기 어렵습니다. 또 사고의 연쇄 같은 추론 기법의 이점을 누리는지도 아직 분명치 않습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗