AI VIDEO BRIEFING

전문가 혼합(MoE)이란? LLM 규모를 키우는 희소 모델 구조 설명

메타·딥시크·미스트랄이 채택한 전문가 혼합(MoE) 구조를 1991년 기원부터 오늘날 조 단위 파라미터 LLM까지 따라가며, 게이팅·희소성·전문가 특화 여부를 쉽게 풀어냈다.

출처: Julia Turc2025년 4월 23일AI 보조 요약

전문가 혼합(MoE): LLM이 느려지지 않으면서 거대해지는 비결 영상 대표 이미지

핵심 메시지

전문가 혼합(MoE)은 지연 시간을 크게 늘리지 않으면서 파라미터 수를 키우는 방법으로, 메타·딥시크·미스트랄 등 오픈소스 LLM들이 규모 확장을 위해 채택하고 있다.
MoE의 핵심은 게이팅 네트워크가 입력마다 일부 전문가만 골라 활성화하는 희소성으로, 전체 파라미터는 거대하지만 실제로 쓰는 파라미터는 일부에 그친다.
트랜스포머에서 MoE는 피드포워드 신경망(FFN) 자리를 대신하며, 프롬프트 단위가 아니라 토큰 하나하나마다 다른 전문가가 선택된다.
전문가들은 실제로 역할을 나눠 맡지만, 그 특화 기준이 반드시 주제(토픽)는 아니라는 점이 흔한 오해의 원인이다.

쉽게 이해하기

전문가 혼합(Mixture of Experts, MoE)은 최근 메타, 딥시크, 미스트랄 같은 오픈소스 LLM 제공자들이 앞다퉈 도입한 구조다. 이유는 한 단어로 요약된다. 바로 규모(scale)다. 연산·데이터·파라미터를 키우면 모델 성능이 좋아진다는 것은 알려진 사실이지만, 인터넷 대부분을 긁어모은 지금 데이터를 더 늘리기는 어려워졌다. MoE는 지연 시간을 폭증시키지 않으면서 파라미터 수를 늘리는 길을 열어준다.

흥미롭게도 MoE는 처음부터 효율을 위한 것이 아니었다. 1991년 모음 인식 연구에서 처음 등장했을 때, 모델은 게이팅 네트워크와 7개의 전문가로 이뤄져 있었다. 각 전문가는 자신만의 파라미터로 예측을 내고, 게이팅 네트워크는 어떤 전문가가 정답을 낼 가능성이 높은지 확률 분포를 만든다. 최종 출력은 게이팅의 판단으로 가중한 전문가 예측들의 합이다. 모든 전문가가 출력에 참여하는 이 방식은 오늘날 "조밀한(dense) MoE"라고 불리며, 당시 목표는 속도가 아니라 분류 정확도 향상이었다.

2017년 구글 연구진은 MoE를 되살리되 "희소하게(sparse)" 만들었다. 모든 전문가를 늘 쓰는 대신 상위 K개만 활성화하는 방식이다. 이 덕분에 전체 파라미터를 1370억 개까지 키우면서도(당시 BERT의 약 400배) 입력마다 실제 활성 파라미터는 1500만 개 수준에 머물렀다. 게이팅은 소프트맥스로 전문가별 확률을 내고, 상위 K개만 골라 쓰며, 학습 초기에 특정 전문가만 계속 선택되는 "부익부" 현상을 막기 위해 노이즈를 더해 부하를 분산한다.

트랜스포머 시대로 오면 MoE는 모델 전체가 아니라 하나의 구성 요소가 된다. 트랜스포머 층은 보통 자기어텐션과 피드포워드 신경망(FFN)으로 이뤄지는데, MoE는 이 FFN을 대체한다. 각 전문가 자체가 하나의 FFN인 셈이다. 중요한 점은 프롬프트 단위가 아니라 토큰 하나하나마다 가장 적합한 전문가가 선택된다는 것이다. 자기어텐션이 단어들을 서로의 맥락 속에서 의미를 다듬는 "회의"라면, FFN(전문가)은 각자 자리로 돌아가 토큰을 독립적으로 처리하는 단계에 비유된다.

2021년 구글의 스위치 트랜스포머는 규모를 또 한 자릿수 키워 1.6조 파라미터에 이르렀고, 의외로 활성 전문가 수를 2개에서 1개로 줄여도 학습이 된다는 점을 보였다. 2024년 1월 미스트랄의 믹스트랄은 FFN을 8개 전문가로 바꾸고 토큰마다 2개를 활성화했다. 비슷한 시기 딥시크는 전문가 수를 늘리되 각 전문가 크기를 줄여 더 많고 더 특화된 전문가를 두었고, 모든 입력에 공통으로 작동하는 "공유 전문가"를 추가해 중복 지식을 분리했다. 메타의 라마 4도 공유 전문가를 둔 점에서 딥시크의 방식을 가깝게 따른다.

마지막으로 영상은 온라인에서 가장 흔한 오해, 즉 "전문가들이 정말 무언가에 특화되는가"를 다룬다. 결론은 "그렇다"이다. 특화가 전혀 없다면 전문가가 한 개인 조밀한 모델과 다를 바 없거나, 게이팅이 모든 입력을 일일이 외워야 하는 비현실적 상황이 되기 때문이다. 다만 믹스트랄 논문이 "주제별로 뚜렷한 배정 패턴이 보이지 않았다"고 한 것은, 주제가 기준이 아닐 뿐 다른 패턴이 없다는 뜻은 아니다. 실제로 2017년 논문에서는 특정 전문가가 학술적 단어, 관사, 형용사 등에 특화되는 분명한 패턴이 관찰됐다.

주요 인사이트

MoE의 진짜 동기는 "더 많은 파라미터를 욱여넣기"가 아니라, 활성 파라미터를 일정하게 유지한 채 전체 용량만 키워 지연 시간 증가 없이 규모를 확장하는 데 있다.
조밀한 MoE(모든 전문가 사용)에서 희소 MoE(상위 K개만 사용)로의 전환이 거대 모델을 가능하게 한 결정적 변화였다.
희소성과 top-K 선택은 이론적으로 불연속성을 낳지만, 실무에서는 문제 되지 않는다는 점이 MoE의 전형적인 "되긴 되는" 성격을 보여준다.
학습 초기의 "부익부" 쏠림을 막기 위한 노이즈 기반 부하 분산은 MoE 학습에서 까다로운 부분 중 하나다.
딥시크의 "더 작고 더 많은 전문가 + 공유 전문가" 설계는, 특화와 공통 지식 사이의 균형을 맞추려는 시도로 라마 4까지 이어지는 최신 흐름이다.
전문가는 특화되지만 그 기준이 주제가 아닐 수 있다는 점은, 모델이 복잡해지면서 패턴을 어디서 찾아야 할지 자체가 어려운 문제임을 보여준다.

자주 묻는 질문

전문가 혼합(MoE)은 왜 쓰나요?

한 단어로 규모(scale)입니다. 데이터를 더 늘리기 어려워진 상황에서, MoE는 지연 시간을 크게 늘리지 않으면서 파라미터 수를 키워 모델 성능을 높이는 방법으로 메타·딥시크·미스트랄 등이 채택하고 있습니다.

"희소(sparse)" MoE는 무엇이 다른가요?

1991년의 조밀한 MoE는 모든 전문가가 출력에 참여했지만, 2017년 구글이 되살린 희소 MoE는 입력마다 상위 K개의 전문가만 활성화합니다. 덕분에 전체 파라미터는 거대해도 실제 활성 파라미터는 일부에 그쳐 효율적으로 규모를 키울 수 있습니다.

트랜스포머에서 MoE는 어디에 들어가나요?

트랜스포머 층의 피드포워드 신경망(FFN)을 대체합니다. 각 전문가가 하나의 FFN이며, 프롬프트가 아니라 토큰 하나하나마다 가장 적합한 전문가가 선택됩니다.

MoE의 전문가들은 정말 특정 분야에 특화되나요?

영상의 결론은 "그렇다"입니다. 다만 특화 기준이 반드시 주제는 아닙니다. 믹스트랄 논문은 주제별 뚜렷한 패턴을 못 봤다고 했지만, 2017년 논문에서는 학술적 단어·관사·형용사 등에 특화된 전문가가 관찰됐습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗