AI VIDEO BRIEFING

Agents A1: 3B만 도는 35B 로컬 오픈소스 에이전트 AI 모델 완전 정리

상하이 AI 연구소가 공개한 Agents A1은 35B 중 3B만 활성화되는 로컬 에이전트 모델로, 검색·지시이행 벤치마크에서 거대 모델까지 앞선다. 구조와 학습 방식, 설치·활용법을 자세히 정리했다.

출처: AICodeKing2026년 7월 4일AI 보조 요약

3B만 활성화되는 35B 로컬 AI 모델 'Agents A1', 검색·지시이행에서 거대 모델을 앞서다 영상 대표 이미지

핵심 메시지

2026년 6월 AI 흐름은 거대 모델보다 로컬에서 돌릴 수 있는 소형 모델의 약진이 두드러졌다.
Agents A1은 상하이 AI 연구소(Intern Science)가 Apache 2.0 라이선스로 공개한 35B 규모의 MoE(전문가 혼합) 에이전트 모델이다.
총 파라미터는 35B지만 한 번에 약 3B만 활성화돼, 35B의 지식을 3B 수준의 속도로 로컬에서 빠르게 구동한다.
"파라미터가 아니라 지평을 확장한다"는 방향으로, 평균 4만 5천 토큰에 달하는 긴 에이전트 작업 궤적으로 학습돼 대화가 아니라 에이전트처럼 일하도록 훈련됐다.
LM Studio·Ollama·llama.cpp용 양자화 버전이 이미 있어 통합 메모리 32GB 맥에서도 4비트 양자화로 어렵지 않게 실행된다.

쉽게 이해하기

영상은 2026년 6월을 "거대 모델의 달"이 아니라 로컬에서 직접 돌릴 수 있는 소형·로컬 모델이 크게 발전한 시기로 요약한다. 그 흐름 위에서 소개되는 Agents A1은 상하이 AI 연구소가 만든 35B 규모의 MoE 에이전트 모델로, Apache 2.0 라이선스라 상업적 이용까지 자유롭다.

핵심은 효율이다. 전체 파라미터는 350억 개지만 특정 시점에 활성화되는 것은 약 30억 개뿐이어서, 큰 모델의 지식과 작은 모델의 속도를 동시에 얻는다. 256K 토큰의 긴 컨텍스트 창을 지원하며, 평균 4만 5천 토큰짜리 행동·관찰·검증 궤적으로 학습돼 도구 사용과 다단계 작업에 맞춰져 있다.

벤치마크에서 이 모델은 같은 체급을 넘어선다. 장기 탐색 벤치마크 Seal Zero에서 56.4로 최고 수준을 기록해 일부 초거대 모델까지 앞섰고, GAIA·지시이행 지표에서도 강한 결과를 보였다. 다만 수치 상당수가 제작사 자체 리포트라는 점, 멀티모달이 아니라는 점은 감안해야 한다.

학습 방식은 3단계다. 전 영역 지도학습 미세조정을 한 뒤 검색·코드·도구 사용 등 영역별 교사 모델을 따로 만들고, 이를 다시 하나의 학생 모델로 증류한다. 여러 전문가를 하나의 범용 모델로 압축하는 이 방식은 소형 에이전트 모델의 표준 레시피가 될 수 있다고 영상은 전망한다.

실사용 측면에서는 LM Studio로 손쉽게 설치해 Hermes 데스크톱이나 Zed 편집기와 연동할 수 있다. 웹 검색·문서 요약·메일 초안 작성 같은 작업을 로컬에서 처리하므로 민감한 데이터를 외부 API로 넘기지 않아도 된다는 점이 강조된다.

주요 인사이트

"작게 만들되 오래 일하도록 학습시킨다"는 접근이 소형 모델의 실전 성능을 끌어올리는 핵심 전략으로 부상하고 있다.
온디바이스에서 신뢰성 있게 도구를 호출하는 에이전트가 현실화되면서, 프라이버시가 중요한 업무를 로컬 모델로 처리하는 선택지가 생겼다.
평가 프레임워크까지 오픈소스로 공개해 벤치마크 재현이 가능하다는 점은, 수치 공개에 인색한 대형 연구소와 대비되는 투명성이다.
권장 샘플링 설정(temperature 0.85, top-p 0.95, presence penalty 1.1)을 적용해야 반복 출력을 줄일 수 있어, 로컬 모델은 세팅이 성능을 좌우한다.

자주 묻는 질문

Agents A1은 어떤 조직이 만들었고 라이선스는 무엇인가요?

과거 Intern LM을 만든 상하이 AI 연구소(Intern Science) 팀이 만들었으며, Apache 2.0 라이선스로 공개돼 상업적 이용까지 자유롭게 허용됩니다.

35B 모델인데 왜 로컬에서 빠르게 도나요?

MoE 구조라 총 파라미터는 350억 개지만 한 번에 약 30억 개만 활성화되기 때문에, 35B의 지식을 3B 수준의 속도로 구동할 수 있습니다.

어떻게 설치해서 쓸 수 있나요?

LM Studio, Ollama, llama.cpp용 양자화 버전이 있어 32GB 통합 메모리 맥에서 4비트 양자화로 실행할 수 있고, Hermes나 Zed와 연동해 사용할 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗