AI VIDEO BRIEFING

MoE란? 거대 LLM을 효율적으로 키우는 전문가 혼합 아키텍처 정리

여러 전문가 모델과 게이팅으로 입력마다 필요한 부분만 활성화하는 전문가 혼합(MoE) 아키텍처의 원리와 희소성의 이점, 믹스트랄·딥시크 등 실제 모델까지 자막을 근거로 정리했습니다.

출처: New Machina2025년 2월 5일AI 보조 요약

전체 뇌를 다 쓰지 않는 똑똑함: 전문가 혼합(MoE) 아키텍처란 영상 대표 이미지

핵심 메시지

전문가 혼합(MoE)은 여러 전문화된 하위 모델(전문가)을 두고, 게이팅 메커니즘이 입력마다 가장 관련 있는 전문가만 동적으로 고르는 아키텍처다.
전문가는 수학·역사처럼 사람이 정한 분야가 아니라 학습 중 자연스럽게 형성되며, 토큰 단위로 서로 다른 전문가가 활성화된다.
매 순전파에서 일부 전문가만 켜지는 희소성 덕분에, 연산량의 선형 증가 없이 매우 큰 모델로 확장할 수 있다.
대신 최적화·학습 안정성이 어렵고, 특정 전문가에 부하가 쏠리지 않도록 부하 분산이 필요하며, 동적 라우팅을 위한 전용 인프라가 든다.
믹스트랄 8x7B(미스트랄 AI)와 딥시크 R1이 대표적 MoE 모델로, 전체 파라미터 중 일부만 활성화하면서 높은 성능을 낸다.

쉽게 이해하기

영상은 LLM 맥락에서 자주 들리는 '전문가 혼합(Mixture of Experts, MoE)'을 몇 분 만에 정리한다. MoE는 하나의 모델이 모든 입력을 처리하는 대신, 여러 전문화된 하위 모델(전문가)을 두고 게이팅 메커니즘으로 입력마다 가장 관련 있는 전문가만 동적으로 선택하는 모델 아키텍처다.

MoE는 1991년 제이콥스, 조던, 나울런, 힌턴이 발표한 논문 '적응적 국소 전문가 혼합'에서 처음 제안됐다. 여기서 전문가는 수학·회계·역사·과학처럼 사람이 명시적으로 배정한 분야가 아니라, 학습 과정에서 입력 데이터 분포의 서로 다른 측면을 담당하는 전문가로 자연스럽게 떠오른다. 각 전문가는 토큰 단위로 활성화돼, 서로 다른 단어·구·문장 구조를 다룬다.

전문가 선택은 게이팅 네트워크가 맡아, 전체 전문가 중 어떤 것을 켤지 입력마다 결정한다. 매 순전파에서 일부 전문가만 활성화되므로 계산이 효율적이다. 이 희소성 덕분에 전체 전문가 중 소수만 켜서 연산 비용을 낮추면서도 높은 모델 용량을 유지하고, 연산 자원의 선형 증가 없이 아주 큰 모델로 확장할 수 있다.

다만 대가도 있다. 학습은 더 복잡해서 게이팅 메커니즘과 희소 업데이트가 최적화와 학습 안정성에 어려움을 주고, 전문가가 과소·과다 사용되지 않도록 부하 분산이 필요하다. 실제 배포와 추론에서도 동적 라우팅과 희소 연산을 효율적으로 처리할 전용 인프라가 필요해 구현 부담이 커진다.

현실의 MoE 모델로는 프랑스 스타트업 미스트랄 AI가 2023년 12월 공개한 오픈소스 믹스트랄 8x7B가 있다. 46.7억 규모가 아니라 467억(46.7B) 파라미터에 전문가 8개, 희소성 2로 매 추론 시 8개 중 2개만 활성화되며, GPT-3.5와 라마 2 70B를 여러 벤치마크에서 앞선다. 또 2025년 1월 나온 중국 모델 딥시크 R1은 6710억 파라미터 중 370억만 추론 시 활성화되는 오픈소스 MoE다. 모델 규모와 복잡성이 계속 커지는 흐름에서 MoE는 비용 효율적이고 확장 가능한 고성능 아키텍처로 자리 잡고 있다.

주요 인사이트

MoE의 전문가는 사람이 분야를 지정하는 것이 아니라 학습 중 데이터 분포에 따라 자연스럽게 특화된다는 점이 핵심이다.
희소 활성화(일부 전문가만 켜기)는 파라미터 총량을 키우면서도 추론 연산량을 억제해, 규모와 효율의 상충을 완화한다.
믹스트랄이 8개 전문가 중 2개만 쓰고도 GPT-3.5를 능가한다는 점은, 활성 파라미터가 성능의 전부가 아님을 보여 준다.
MoE의 이점은 공짜가 아니어서, 부하 분산·학습 안정성·동적 라우팅 인프라라는 운영 난제를 함께 떠안아야 한다.
딥시크 R1처럼 6710억 중 370억만 활성화하는 구조는, 초거대 모델을 감당 가능한 추론 비용으로 운용하는 현실적 전략이다.

자주 묻는 질문

전문가 혼합(MoE)이란 무엇인가요?

여러 전문화된 하위 모델(전문가)을 두고, 게이팅 메커니즘이 입력마다 가장 관련 있는 전문가만 동적으로 선택하는 모델 아키텍처입니다. 하나의 모델이 모든 입력을 처리하는 대신 필요한 부분만 켜서 희소하고 효율적으로 작동합니다.

MoE의 전문가는 분야별로 미리 나눠져 있나요?

아닙니다. 수학·역사처럼 사람이 배정한 분야가 아니라, 학습 과정에서 입력 데이터 분포의 서로 다른 측면을 담당하도록 자연스럽게 형성됩니다. 각 전문가는 토큰 단위로 활성화됩니다.

실제로 쓰이는 MoE 모델에는 무엇이 있나요?

미스트랄 AI의 믹스트랄 8x7B(2023년 12월, 467억 파라미터, 8개 중 2개 활성화)와 딥시크 R1(2025년 1월, 6710억 중 370억 활성화)이 대표적입니다. 둘 다 오픈소스이며 전체 중 일부만 활성화하면서 높은 성능을 냅니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗