AI VIDEO BRIEFING

이번 주 AI 뉴스 정리: GLM 5.2 오픈소스 1위·월드모델·탁구로봇·미드저니 의료 스파

GLM 5.2 오픈소스 모델, DreamXWorld 월드 모델, 일관성 좋은 영상 편집, 과학용 통합 AI, 소니 탁구 로봇, OpenAI 코덱스의 녹화-재생 기능, 미드저니의 의료 스파 등 한 주간의 주요 AI 소식을 정리했습니다.

이번 주 AI 총정리: 오픈소스 1위 GLM 5.2, 월드 모델, 탁구 로봇, 미드저니의 의료 스파까지 영상 대표 이미지

핵심 메시지

  • 중국 ZAI의 GLM 5.2가 오픈소스 1위 모델로 떠올랐다. 최상위 GPT·클로드에만 살짝 뒤지면서 가격은 훨씬 저렴하고 환각률도 가장 낮은 편이다.
  • DreamXWorld 같은 '월드 모델'은 프롬프트나 참조 이미지로 탐험·조작 가능한 가상 환경을 만들어내고, 일부는 이미 오픈소스로 공개됐다.
  • 영상 편집(Permavid)·카메라 움직임 복제(Kling Omni Director)·이미지 생성과 편집(Boo Goo Image) 등 생성형 미디어 도구가 빠르게 발전하고 있다.
  • 소니의 탁구 로봇 'Ace'는 프로 선수를 상대로 회전까지 실시간으로 읽어내며 압도하는 모습을 보였다.
  • OpenAI 코덱스의 '녹화-재생' 기능은 화면 녹화만으로 작업 과정을 재사용 가능한 스킬로 바꿔, 자동화를 '시연으로 가르치기'에 가깝게 만든다.
  • 미드저니는 이미지 생성에서 벗어나, 초음파로 60초 만에 전신을 스캔하는 '의료 스파'라는 전혀 다른 방향으로 피벗을 발표했다.

쉽게 이해하기

영상은 한 주간 쏟아진 AI 소식을 빠르게 훑는다. 먼저 'DreamXWorld'라는 월드 모델은 프롬프트나 참조 이미지만으로 탐험하고 조작할 수 있는 가상 세계를 만들어낸다. 언리얼 엔진과 실제 영상 데이터를 함께 학습해 사실적인 움직임과 게임 같은 상호작용을 모두 익혔고, 수백 프레임의 긴 영상에서도 장면 일관성을 유지한다. 50억 파라미터 버전이 이미 공개됐다.

생성형 미디어 도구도 줄줄이 등장했다. 영상 편집의 일관성 문제를 '외형'과 '3D 구조'를 분리한 메모리로 해결하려는 Permavid, 참조 영상의 카메라 움직임을 다른 영상에 그대로 복제하는 Kling의 Omni Director, 아파치 2.0 라이선스로 상업적 사용까지 허용하는 이미지 생성·편집 모델 Boo Goo Image, 참조 이미지의 화풍을 다른 이미지에 입히는 Telestyle V2 등이 소개된다.

로봇과 과학 분야 소식도 풍성하다. 알리바바 앤트그룹의 상반신 외골격은 사람의 움직임과 힘(토크)까지 기록해 로봇에게 집안일을 가르친다. 알리바바 통이랩의 'Logos'는 단백질·분자·재료·항체 등 서로 다른 과학 영역을 하나의 토큰 문법으로 이해하는 통합 모델로, 아파치 2.0으로 공개됐다. OpenAI는 GPT를 실험 플랫폼과 연결해 찬-람(Chan-Lam) 반응의 수율을 실제로 끌어올린 'AI 화학자' 사례도 선보였다.

로봇 데모의 백미는 소니의 탁구 로봇 'Ace'다. 공의 회전축을 1밀리초 안에 읽어내는 비전 시스템과 빠른 구동으로, 프로 선수를 상대로 단순 수비가 아니라 상대의 실수를 유도하는 능동적 전략까지 보여줬다. 베이징대의 알고리즘으로 두 다리로 균형을 잡으며 탁구를 치는 휴머노이드 AGIbot A3, 동반자·돌봄을 겨냥한 전신 휴머노이드 'Moya' 데모도 함께 다뤄진다.

오픈소스 진영의 주인공은 ZAI의 GLM 5.2다. 'AA 인텔리전스 인덱스'에서 최상위 GPT·클로드에만 뒤지는 사실상 최고의 오픈 모델이면서 가격은 훨씬 싸고 환각률은 가장 낮은 축에 든다. MIT 라이선스로 공개된 1.5테라바이트 모델은 며칠 만에 커뮤니티가 1비트(223GB)·2비트 압축본을 내놓아 고사양 개인 장비에서도 돌릴 수 있게 됐다. 영상은 끝으로 미드저니가 초음파로 60초 만에 전신을 스캔하는 '미드저니 메디컬/스파'라는 의외의 피벗을 발표했다고 전하며, 규제(FDA 승인)가 큰 관문이 될 것이라고 짚는다.

주요 인사이트

  • 오픈소스 AI의 경쟁력이 빠르게 따라붙고 있다. GLM 5.2처럼 최상위 폐쇄형 모델에 근접하면서 가격은 절반 이하, 환각률은 더 낮은 모델이 MIT 라이선스로 풀리면 활용의 폭이 크게 넓어진다.
  • 모델이 공개되면 커뮤니티가 며칠 만에 압축본과 변형본을 쏟아내, 1.5테라바이트짜리 거대 모델도 고사양 개인 장비에서 돌릴 수 있게 된다. 이것이 오픈 웨이트의 핵심 힘이다.
  • AI는 텍스트·이미지·영상을 넘어 월드 모델, 로봇 제어, 과학 실험, 의료 영상까지 물리 세계와 전문 영역으로 빠르게 확장하고 있다.
  • OpenAI 코덱스의 녹화-재생처럼, 글로 설명하기 어려운 업무는 '시연 녹화'로 가르치는 방식이 자동화의 새로운 형태로 자리 잡고 있다. 다만 작업이 안정적이고 성공 기준이 분명할 때 가장 잘 작동한다.

자주 묻는 질문

이번 주 가장 주목받은 오픈소스 모델은 무엇인가요?

중국 ZAI의 GLM 5.2입니다. 최상위 GPT·클로드에만 살짝 뒤지는 사실상 최고의 오픈 모델로, 가격이 훨씬 싸고 환각률도 낮으며 MIT 라이선스로 공개됐습니다. 커뮤니티가 1비트(223GB) 등 압축본을 빠르게 내놓았습니다.

소니의 탁구 로봇이 특별한 이유는 무엇인가요?

공의 회전(스핀)을 1밀리초 안에 읽어내는 비전 시스템과 빠른 구동을 갖춰, 프로 선수를 상대로 단순 수비가 아니라 상대의 실수를 유도하는 능동적 전략까지 구사했기 때문입니다.

OpenAI 코덱스의 '녹화-재생' 기능은 무엇인가요?

사용자가 어떤 작업을 하는 화면을 녹화해 코덱스에 주면, 그 과정을 이해해 재사용 가능한 '스킬'로 바꿔주는 기능입니다. 작업이 안정적이고 성공 기준이 분명할 때 가장 잘 작동하며, 현재 맥OS의 컴퓨터 사용 환경에서 제공됩니다.

미드저니가 발표한 새로운 방향은 무엇인가요?

이미지 생성에서 벗어나, 따뜻한 물에 들어가 초음파 센서로 약 60초 만에 전신을 스캔하는 '미드저니 메디컬'을 발표했습니다. 스파 형태의 공간에서 제공할 계획이며, FDA 승인 등 규제가 큰 관문으로 지적됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식