AI VIDEO BRIEFING

오픈소스 LLM 아키텍처 비교: GPT-OSS·Qwen 3·딥시크 V3의 설계 전략

OpenAI의 GPT-OSS, 알리바바 Qwen 3, 딥시크 V3를 아키텍처 관점에서 비교한다. MoE 구조, 어텐션 방식, 긴 문맥 확장 기법의 차이를 정리했다.

출처: Y Combinator2025년 8월 29일AI 보조 요약

GPT-OSS·Qwen 3·딥시크 V3, 오픈소스 LLM 3파전의 설계 차이 뜯어보기 영상 대표 이미지

핵심 메시지

OpenAI가 GPT-2 이후 처음 공개한 오픈 웨이트 모델 GPT-OSS는 120B·20B 두 크기의 전문가 혼합(MoE) 모델로, 토큰마다 상위 4개 전문가만 활성화해 추론 효율을 높인다.
세 모델 모두 그룹 쿼리 어텐션·SwiGLU·RoPE·RMSNorm 같은 현대 LLM의 공통 부품을 쓰지만, 같은 결과에 이르는 세부 기법은 서로 크게 다르다.
긴 문맥을 확보하는 방식이 갈린다. GPT-OSS는 사전학습부터 YaRN을 적용해 13만 토큰을 네이티브로 익히고, 딥시크는 단계적 미세조정으로, Qwen은 추론 시점 YaRN 스케일링으로 도달한다.
딥시크 V3는 671B MoE에 8비트 네이티브 학습과 MLA(다중 헤드 잠재 어텐션)로 메모리를 절감하며, Qwen 3는 4천 쌍의 데이터만으로도 강화학습 효과를 낸다.
벤치마크 점수나 문맥 길이 같은 표면 수치보다, 각 연구소가 그 결과에 도달하기 위해 선택한 구체적 방법을 봐야 한다.

쉽게 이해하기

OpenAI가 2019년 GPT-2 이후 처음으로 가중치를 공개한 GPT-OSS는 미국 주요 AI 연구소가 내놓은 대형 오픈 웨이트 모델이라는 점에서 주목받았다. 120B와 20B 두 크기로 제공되며, 전문가 혼합(MoE) 구조를 채택해 토큰마다 상위 4개 전문가만 활성화한다. 덕분에 전체 파라미터를 다 쓰지 않고도 큰 모델의 이점을 누리는 효율적 추론이 가능하다.

GPT-OSS는 디코더 전용 트랜스포머로, 그룹 쿼리 어텐션(여러 쿼리 헤드가 키·값을 공유해 메모리를 아끼는 방식), 피드포워드 층의 SwiGLU 활성화, 위치 정보를 어텐션에 직접 새기는 RoPE, 그리고 사전 정규화 방식의 RMSNorm을 두루 담았다. 13만1천 토큰의 문맥 창은 사전학습 단계에서 YaRN 스케일링을 적용해 확보했고, o200k harmony 토크나이저를 사용한다. 기본적으로 양자화된 형태로 배포돼 소비자용 GPU나 노트북에서도 돌릴 수 있다.

알리바바 클라우드의 Qwen 3는 모든 파라미터를 쓰는 밀집 모델과 일부만 활성화하는 MoE 모델을 모두 제공한다. MoE는 전문가 128개 중 토큰당 8개를 활성화한다. 이전 세대와 달리 QKV 편향을 QK-norm으로 바꿔 대규모에서도 어텐션 점수를 안정적으로 유지하고, 36조 토큰(이전의 두 배)으로 학습했다. 특히 추론 데이터와 비추론 데이터를 함께 미세조정해 하나의 모델에서 사고 모드를 껐다 켤 수 있는 '사고 모드 융합'이 특징이다.

딥시크 V3는 671B 규모의 MoE로, 토큰마다 37B를 활성화한다. 16·32비트가 아니라 8비트로 네이티브 학습해 학습 비용을 크게 낮췄고, 키·값을 작은 잠재 공간으로 압축했다가 추론 때 복원하는 MLA를 써서 그룹 쿼리 어텐션보다 더 큰 메모리 절감을 노린다. 최근 V3.1은 같은 뼈대 위에 하이브리드 사고 모드와 향상된 도구 사용 능력을 얹었다.

세 모델을 나란히 놓으면 규모, 어텐션 방식, 문맥 확장 전략에서 뚜렷한 갈래가 보인다. 흥미로운 점은 대부분의 논문이 '이 조합이 우리에게 잘 통했다'는 경험적 발견을 서술할 뿐, 왜 특정 기법이 다른 기법보다 나은지에 대한 제1원리 설명은 거의 없다는 것이다.

주요 인사이트

같은 벤치마크 수준에 도달하면서도 서로 다른 기법을 쓴다는 사실은, 딥러닝의 현재 수준이 아직 이론적 근거보다 경험적 실험에 크게 기대고 있음을 보여준다.
문맥 확장 하나만 봐도 전략이 갈린다. GPT-OSS는 태어날 때부터 긴 문맥을 익히고, 딥시크는 단계적으로 훈련해 넣으며, Qwen은 3만2천 토큰으로 학습한 모델을 추론 시점 기법으로 밀어붙인다.
각 연구소가 공개하지 않는 데이터셋 구성과 데이터 엔지니어링이야말로 재현을 어렵게 만드는 진짜 해자(moat)로 작동한다.
강화학습이 후처리·추론 능력의 핵심으로 자리 잡았고, Qwen처럼 단 4천 쌍의 데이터로도 큰 효과를 내는 사례는 데이터 효율 측면에서 놀랍다.

자주 묻는 질문

GPT-OSS는 어떤 규모로 제공되나요?

120B(토큰당 약 5.1B 활성화)와 20B(토큰당 약 3.6B 활성화) 두 가지 전문가 혼합 모델로 제공되며, 기본적으로 양자화된 형태로 배포됩니다.

딥시크 V3의 MLA는 무엇이고 왜 쓰나요?

MLA는 키와 값을 작은 잠재 공간으로 압축해 캐싱한 뒤 추론 시 복원하는 어텐션 방식입니다. 그룹 쿼리 어텐션보다 메모리 절감과 모델링 성능 면에서 이점이 크다고 딥시크가 밝혔습니다.

세 모델이 긴 문맥을 확보하는 방식은 어떻게 다른가요?

GPT-OSS는 사전학습 때부터 YaRN을 적용해 13만 토큰을 네이티브로 익히고, 딥시크는 3만2천 → 12만8천으로 단계적 미세조정하며, Qwen은 3만2천으로 학습한 뒤 추론 시점에 RoPE 기본 주파수를 4배로 키워 12만8천에 도달합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗