AI VIDEO BRIEFING

이번 주 AI 뉴스 정리 — 롱캣 2.0·페이블 5 재출시·생각 타이핑

엔비디아 GPU 없이 훈련한 롱캣 2.0, 더 제한된 채 돌아온 클로드 페이블 5, 수술 없이 생각을 글로 바꾸는 메타의 프로젝트 등 이번 주 공개된 AI 모델과 도구를 한 번에 정리했다.

이번 주 AI 총정리 — GPU 없이 훈련한 롱캣 2.0, 클로드 페이블 5 재출시, 생각을 글로 바꾸는 AI 영상 대표 이미지

핵심 메시지

  • 중국 음식 배달 기업 메이퇀이 엔비디아 GPU 없이 특화 칩(ASIC) 슈퍼팟만으로 1.6조 파라미터의 프런티어급 오픈소스 모델 '롱캣 2.0'을 훈련했다.
  • 앤트로픽의 최강 모델 '페이블 5'가 안전 분류기 강화 후 재출시됐지만, 주간 사용량의 50%까지만 쓸 수 있고 코딩·디버깅 같은 작업은 오퍼스 4.8로 되돌아가는 등 제약이 커졌다.
  • 메타의 'Brain2Qwerty(브레인 타이핑)'는 MEG로 측정한 뇌파를 문장으로 해독해, 수술 없이 생각만으로 타이핑을 시도한다. 단어 정확도는 약 78%다.
  • 로봇 학습에서 자신의 실패를 재사용 가능한 '스킬'로 저장하는 엔비디아 Aspire, 사진 한 장을 물리적으로 정확한 3D 시뮬레이션으로 바꾸는 Sim Foundry 등 로보틱스 도구가 대거 등장했다.
  • 구글은 성능보다 효율에 집중해 초당 대량 생성이 가능한 이미지 모델 '나노 바나나 2 라이트'와 영상 편집용 '제미나이 옴니 플래시'를 공개했다.

쉽게 이해하기

이번 주 영상은 한 주간 쏟아진 AI 모델과 도구를 폭넓게 훑는다. 먼저 악보를 이해하는 AI 'MuseVIT'가 소개됐다. 악보는 단순 이미지가 아니라 기호·박자·음높이·오선의 관계를 담고 있어 일반 비전 모델에는 어려운 과제인데, 970만 페이지의 악보로 일부를 가린 뒤 복원하도록 학습시켜 구조를 이해하게 했다. 500MB 미만으로 소비자 기기에서도 구동할 수 있다.

가장 큰 화제는 중국 배달 기업 메이퇀의 오픈소스 모델 '롱캣 2.0'이다. 엔비디아 GPU가 사실상 표준인 대규모 훈련을 특화 칩 슈퍼팟(화웨이 칩이라는 추측)만으로 완주했고, 훈련 중 롤백이나 회복 불가능한 손실 급증이 없었다고 밝혔다. 1.6조 파라미터의 MoE 모델로 추론 시 480억 개만 활성화되며, 터미널 벤치·SWE 벤치 등에서 제미나이 3.1 프로를 앞서고 상위 폐쇄형 모델에 근접했다. MIT 라이선스로 완전 공개됐다.

생성·편집 도구도 풍성했다. 재생 중 영상을 실시간(약 13fps)으로 편집하는 LiveEdit, 손을 3D로 정밀 복원하는 VidiHand, 35B 규모로 훨씬 큰 모델을 앞서는 에이전트 특화 오픈모델 'Agents A1', 그리고 이미지 생성을 한 단계로 끝내는 RDM, 저해상도 생성 후 한 번의 고해상 단계로 최대 21배 빠르게 만드는 'Mr. Flow' 등이 공개됐다.

앤트로픽 소식으로는 페이블 5 재출시와 소넷 5 공개가 다뤄졌다. 영상은 재출시된 페이블 5가 이전보다 더 제한적이며(주간 사용량 50% 상한, 코딩·디버깅 시 오퍼스 4.8로 회귀), 벤치마크상 디버깅·리팩터링 성능이 크게 낮아졌다고 전한다. 소넷 5는 오퍼스 4.8보다 일부 벤치마크에서 뒤지면서도 더 비싸, 기존 모델 대비 이점이 뚜렷하지 않다고 평했다.

로보틱스와 신체·아바타 분야도 활발했다. 걷기·들기·밀기를 매끄럽게 이어 40분가량 장기 과제를 수행하는 OmniContact, 실패를 스킬로 축적하는 엔비디아 Aspire, 사진·영상을 훈련용 3D 시뮬레이션으로 바꾸는 Sim Foundry, 사람 시연을 힘·토크로 변환해 로봇 손에 이식하는 Cord, 몇 장의 사진과 구동 신호로 3D 아바타를 애니메이션하는 메타의 Luna가 등장했다. 한편 유비테크는 20여 종 감정을 90% 이상 정확도로 인식한다는 초현실 휴먼로이드 동반자 로봇 U1 시리즈를 공개했다.

주요 인사이트

  • 엔비디아 GPU 없이도 프런티어급 대규모 훈련이 가능함을 롱캣 2.0이 실증하면서, 중국의 자국산 AI 칩 의존 전환 흐름이 구체적 성과로 드러났다.
  • 페이블 5의 재출시 조건(사용량 50% 상한, 코딩 시 하위 모델로 회귀)은 강화된 안전 분류기가 정상적인 요청까지 오탐·차단할 수 있음을 보여주는 사례로 제시됐다.
  • MuseVIT·VidiHand·PhysFormer처럼 특정 도메인(악보·손·물리)의 구조를 이해하는 전용 모델이 늘며, 로봇 학습용 데이터 확보 수단으로 3D 재구성·시뮬레이션이 부각되고 있다.
  • 생성 모델 경쟁축이 절대 성능에서 속도·비용 효율(한 단계 생성, 최대 21배 가속, 경량 이미지·영상 모델)로도 확장되고 있다.
  • 감정 인식을 내세운 초현실 동반자 로봇이 1만 3천 건 이상 사전 주문을 받는 등, 인간-로봇 관계가 사회적 논의 대상으로 떠오르고 있다.

자주 묻는 질문

롱캣 2.0이 특별한 이유는?

엔비디아 GPU 없이 특화 칩(ASIC) 슈퍼팟만으로 훈련을 완주한 1.6조 파라미터 오픈소스 모델이기 때문이다. 훈련 중 롤백이나 회복 불가능한 손실 급증이 없었고, 여러 에이전트 코딩·추론 벤치마크에서 상위 폐쇄형 모델에 근접했다.

재출시된 페이블 5는 무엇이 달라졌나?

안전 분류기를 강화해 다시 공개됐지만, 주간 사용량의 최대 50%까지만 쓸 수 있고 코딩·디버깅 같은 일부 작업은 오퍼스 4.8로 되돌아간다. 영상은 강화된 분류기가 정상 요청도 오탐할 수 있고, 벤치마크상 디버깅·리팩터링 성능이 이전보다 낮아졌다고 전한다.

메타의 뇌파 타이핑 프로젝트는 어떻게 작동하나?

MEG로 측정한 뇌 활동을 학습된 모델이 문장으로 해독하는 방식으로, 수술 없이 생각만으로 타이핑을 시도한다. 이번 2번째 버전은 문자 정확도 약 69%, 단어 정확도 약 78%를 기록했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식