AI VIDEO BRIEFING
구글 딥마인드 젬마 4 분석: 오픈 모델로 얻는 소유권·주권·온디바이스 AI
구글 딥마인드가 젬마 4를 공개하며 '오픈 모델 소유권'을 강조했다. 휴대폰에서 도는 소형부터 31B까지, 데이터 주권과 비용 통제, 온디바이스 활용법을 정리했다.

핵심 메시지
쉽게 이해하기
구글 딥마인드에서 젬마 제품을 담당하는 거스 마틴스와 이안 발렌타인이 '소유권과 오픈 모델'을 주제로 발표한다. 지난 목요일 새 모델 패밀리 젬마 4를 공개했다는 소식과 함께, 더 큰 이야기를 풀어낸다. 마틴스는 가장 쉽게 권하는 최고의 모델은 제미나이라고 인정하면서도, 모델을 '소유'해야 하는 상황이 있다고 말한다. 자체 하드웨어에서 돌리고, 맞춤화하고, 인프라 밖으로 내보낼 수 없는 독점 데이터를 다뤄야 할 때다. 그래서 구글은 가장 똑똑한 호스팅 모델 제미나이와, 통제·접근을 위한 오픈 모델 젬마라는 두 패밀리를 서로 보완하도록 운영한다.
젬마 4는 네 가지 크기로 나왔다. 모바일·IoT용 E2B·E4B는 이름의 'E'가 '효과적(effective)'을 뜻하는데, 2B 모델만큼의 메모리를 쓰면서 실제로는 더 크다. 약 5B 파라미터지만 토큰 매핑에 쓰이는 파라미터는 다른 메모리에 둘 수 있어, GPU 메모리에는 2B 또는 4B만 올리면 된다. 덕분에 픽셀폰 같은 휴대폰에서도 돌릴 수 있고 텍스트·비전·오디오 입력에 텍스트 출력, 사고·코딩·함수 호출까지 지금 당장 기기에서 가능하다. 더 큰 모델로는 4B만 활성화되는 혼합 전문가(MoE) 구조의 26B와, 가장 강력한 31B 밀집 모델이 있다.
마틴스는 31B를 일상적으로 쓴다며 코딩·에이전트·다국어 등 거의 모든 것을 할 수 있다고 말한다. LM 아레나(사람 선호 기반 벤치마크)에서 두 모델이 오픈 모델 4위·7위권이며, 상위권 다른 모델들은 최소 2~3배, 일부는 20배까지 크다는 점에서 '크기 대비 지능'이 두드러진다고 강조한다. 가장 똑똑한 모델이냐고 묻는다면 아니지만, 메일 요약이나 코딩 보조, 검색·문서 상호작용 같은 에이전트 작업에 지구상 가장 똑똑한 모델이 꼭 필요하지는 않다는 것이다. 강하면서도 더 싸고 훨씬 적은 하드웨어로 돌아간다. 31B는 GPU 한 장에서 도는 반면 경쟁 모델은 200GB 메모리, 즉 GPU 4~5장이 필요하다.
그가 강조하는 핵심 가치는 소유권과 그로부터 나오는 '주권'이다. 모델을 소유하면 서비스 중단이나 '더는 못 쓴다'는 통보에 휘둘리지 않고 사용 사례에 맞게 적응할 수 있다. 그래서 지난해부터 맞춤형 젬마 라이선스 대신 아파치 2.0으로 옮겼다. 맞춤 라이선스는 법무팀이 18개월씩 검토에 매달리게 해 주권 기관의 도입을 어렵게 했기 때문이다. 실제 사례로 우크라이나가 일부 서비스에 젬마를 쓰고, 불가리아어용으로 파인튜닝된 버전이 국가 LLM으로 쓰였으며, 브라질 포르투갈어 버전도 있다. 다만 모델이 이미 여러 언어에 강해, 특정 언어로 추가 파인튜닝해 1%를 더 짜내는 것이 늘 시간을 잘 쓰는 일은 아니라는 점도 솔직히 덧붙인다.
이어 발렌타인은 에이전트 시대의 비용 관점을 짚는다. 작업이 점점 에이전트화되며 토큰 생성 비용이 커지는데, 오픈 라우터의 통계에서 프로그래밍이 토큰 생성이 가장 많은 작업군에 속한다. 모델을 소유하면 이 비용을 토큰이 아니라 '에너지'로 치르며 직접 통제할 수 있다. 그는 전체 시스템 재설계 같은 일은 프런티어 모델에 맡기되, 명확한 지시에 따른 리팩터링·분석·모듈 단위 코드 생성 같은 일은 단일 GPU나 개인 하드웨어의 오픈 모델에 떼어줄 수 있다고 말한다. 판단 기준은 역량·하드웨어 적합성·지연·비용의 임계값이다. 그는 휴대폰에서 함수 호출로 앱을 제어하는 온디바이스 에이전트(AI 갤러리)와, M4 맥에서 LM 스튜디오로 26B 모델을 띄워 여러 서브 에이전트로 동시 번역을 돌리는 데모를 보여준다. 의료 특화 메드젬마 같은 변형도 소개하며, 기존 워크플로에 먼저 끼워 넣어 보고 자신의 과제로 평가 스위트를 보강하며 서빙 인프라 비용을 따져보라고 권한다.
주요 인사이트
- 제미나이(독점·호스팅)와 젬마(오픈)는 경쟁이 아니라 보완 관계다. 자체 하드웨어 실행, 맞춤화, 외부로 내보낼 수 없는 데이터 처리가 필요할 때는 가장 똑똑한 모델보다 '소유 가능한' 모델이 답이다.
- 젬마 4의 E2B·E4B는 토큰 매핑 파라미터를 다른 메모리에 두어, 2B 수준의 GPU 메모리로 더 큰 모델을 휴대폰에서 돌린다. '크기 대비 지능'을 끌어올린 설계다.
- 31B 모델이 경쟁 모델보다 2~20배 작으면서 GPU 한 장에서 돌아간다는 점은, 일상 업무에 굳이 가장 똑똑한 모델이 필요하지 않다는 실용적 판단으로 이어진다.
- 맞춤 라이선스를 아파치 2.0으로 바꾼 것은 단순한 정책 변경이 아니라, 법무 검토 부담을 없애 주권 기관과 기업의 채택 장벽을 낮추는 전략이다.
- 에이전트·코딩처럼 토큰 생성이 많은 작업일수록 모델 소유의 이점이 커진다. 비용을 토큰이 아닌 에너지로 치르며 지연·하드웨어·실행 시점(예: 야간 배치)을 직접 설계할 수 있기 때문이다.
자주 묻는 질문
제미나이가 있는데 구글은 왜 오픈 모델 젬마도 만드나요?
두 모델이 서로 보완하기 때문입니다. 제미나이는 가장 똑똑하지만 구글 서버에 호스팅돼 API로 접근해야 합니다. 자체 하드웨어에서 돌리거나 맞춤화하고, 인프라 밖으로 내보낼 수 없는 독점 데이터를 다뤄야 할 때는 소유·통제가 가능한 오픈 모델 젬마가 필요합니다.
젬마 4에는 어떤 크기의 모델이 있나요?
네 가지입니다. 휴대폰 등에서 도는 메모리 효율형 E2B·E4B(텍스트·비전·오디오 입력, 텍스트 출력), 4B만 활성화되는 혼합 전문가(MoE) 구조의 26B, 그리고 가장 강력한 31B 밀집 모델입니다. 31B는 GPU 한 장에서 돌릴 수 있습니다.
라이선스를 아파치 2.0으로 바꾼 이유는 무엇인가요?
기존 맞춤형 젬마 라이선스는 법무팀이 오래 검토해야 해 주권 기관의 도입을 어렵게 했습니다. 아파치 2.0으로 전환하면서 법무 검토 부담이 줄어, 데이터 주권이 중요한 국가·기관이 모델을 소유하고 자유롭게 활용하기가 훨씬 쉬워졌습니다.
오픈 모델을 소유하면 비용 측면에서 무엇이 다른가요?
비용을 토큰 단위가 아니라 에너지(하드웨어 가동) 단위로 치르게 됩니다. 에이전트·코딩처럼 토큰 생성이 많은 작업일수록 이점이 커지며, 실행 시점과 지연, 하드웨어 활용을 직접 설계할 수 있습니다. 다만 자체 GPU 호스팅에는 유지·운영 비용과 초기 투자도 함께 고려해야 합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗