AI VIDEO BRIEFING

이번 주 AI 뉴스 정리: 실시간 아바타·시드댄스 2.5·OpenAI 칩·IBM 서브 1나노

실시간 대화형 아바타, 오픈소스 코딩 모델, OpenAI의 전용 AI칩, IBM의 1나노미터 이하 칩, 시드댄스 2.5 영상 모델 등 한 주간 쏟아진 AI 소식을 한국어로 정리했다.

이번 주 AI 총정리: 실시간 대화 아바타부터 OpenAI 전용칩·IBM 1나노 이하 칩까지 영상 대표 이미지

핵심 메시지

  • 단일 트랜스포머로 텍스트·오디오·영상을 함께 처리해 약 200ms 지연, 25fps로 실시간 대화가 가능한 아바타(원 스트리머)가 공개됐다.
  • OpenAI는 브로드컴과 함께 자사 첫 AI 전용 프로세서를 개발했고, IBM은 0.7나노(7옹스트롬)급 '나노 스택' 3D 구조로 손톱 크기 칩에 약 1천억 개 트랜지스터를 담는 기술을 발표했다.
  • 바이트댄스의 차세대 영상 모델 시드댄스 2.5는 최대 30초·50개 멀티모달 레퍼런스·부분 편집·2K/4K 출력을 지원할 것으로 예고됐다.
  • 에이전트형 코딩에 특화된 오픈소스 모델(오르니스)과, 확산(diffusion) 대신 결합 진동자를 쓰는 새 이미지 생성 구조 등 오픈소스·신아키텍처 시도가 이어졌다.
  • GPT 5.6과 클로드 마이토스/페이블 등 최상위 모델의 접근이 일부 신뢰 파트너로 제한된다는 내용이 다뤄지며, 오픈소스 모델의 중요성이 강조됐다.

쉽게 이해하기

이 영상은 한 주간의 AI 소식을 빠르게 훑는 뉴스 정리 콘텐츠다. 첫 소식은 '원 스트리머'라는 실시간 대화형 아바타로, 표정과 손동작이 자연스럽고 사용자가 말하는 동안에도 듣고 보며 반응하는 양방향(듀플렉스) 대화를 지원한다. 단일 트랜스포머 모델이 텍스트·오디오·영상을 함께 처리하며, 약 200ms 지연과 25fps로 사실상 실시간 대화가 가능하다. 다만 현재는 192p 저해상도의 개념 증명(0.1) 단계다.

영상·이미지 생성 쪽 소식도 풍성하다. 여러 레퍼런스 이미지를 일관되게 영상으로 옮기는 '도메인 셔틀', 기하 제약을 직접 지정해 3D 생성을 정밀 제어하는 스태빌리티 AI의 '아버(Arbor)', 단일 2D 영상을 시간 축까지 포함한 4D 장면으로 복원하는 '리프트 4D', 여러 영역 설명을 동시에 생성하는 확산 언어모델 기반 비전모델 등이 소개됐다. 바이트댄스의 차세대 영상 모델 시드댄스 2.5는 최대 30초 길이, 50개 멀티모달 레퍼런스, 박스를 그려 특정 영역만 고치는 부분 편집, 2K/4K 출력을 예고했다.

하드웨어 소식이 특히 묵직하다. OpenAI는 브로드컴과 손잡고 자사 첫 AI 전용 프로세서를 만들었으며, 자사 모델을 활용해 약 9개월 만에 개발했고 현 최첨단 가속기 대비 와트당 성능이 크게 낫다고 밝혔다. IBM은 0.7나노(7옹스트롬)급 '서브 1나노' 기술을 공개했는데, 트랜지스터를 수직으로 쌓는 '나노 스택' 3D 구조로 손톱 크기 칩에 약 1천억 개 트랜지스터를 담아 2021년 2나노 칩 대비 성능 최대 50%·에너지 효율 70% 향상을 노린다.

오픈소스·연구 동향도 다뤄진다. 에이전트형 코딩에 특화된 오픈소스 모델 '오르니스'는 사람이 짠 하니스 대신 스스로 작업 흐름(스캐폴드)을 설계하도록 학습한다. 확산 모델 대신 수천 개의 '결합 진동자'가 동기화하며 이미지를 만드는 새 구조(unzero), 메타의 자율 데이터셋 구축 프레임워크 '오토 데이터', 초음파로 뇌 혈류를 정밀 영상화하는 연구 등이 이어졌다. 영상은 텍스트·이미지·편집·스타일을 하나의 모델에 담는 바이트댄스의 'OPD' 학습 기법도 소개한다.

마지막으로 최상위 모델 접근 제한 이슈가 다뤄진다. 영상은 GPT 5.6과 클로드 마이토스·페이블 같은 프런티어 모델이 일부 신뢰 파트너에게만 우선 제공된다는 점을 비판적으로 전하며, 누구나 직접 호스팅할 수 있는 오픈소스 모델(GLM, 딥시크, 큐엔 등)의 중요성을 강조한다. 또한 4,900달러부터 시작하는 저가 휴머노이드 로봇(유니트리 R1) 데모와 500시간 분량의 가정용 휴머노이드 학습 데이터셋도 소개된다.

주요 인사이트

  • 실시간 멀티모달 아바타의 관건은 화질보다 '지연'이다. 약 200ms·25fps의 양방향 처리가 자연스러운 대화의 핵심이며, 한 모델 안에서 텍스트·오디오·영상을 교차 처리하는 통합 구조가 이를 가능케 한다.
  • OpenAI의 전용칩과 IBM의 서브 1나노 칩 소식은 'AI는 소프트웨어'라는 인식의 한계를 보여준다. 모델 사용 방식에 맞춰 하드웨어를 직접 설계하는 풀스택 최적화와, 트랜지스터를 수직으로 쌓아 무어의 법칙을 잇는 흐름이 동시에 나타난다.
  • 영상·3D 생성의 경쟁축이 '한 번에 멋진 클립'에서 '제어 가능한 제작 도구'로 옮겨가고 있다. 멀티 레퍼런스 입력, 부분 편집, 캐릭터·장면 일관성처럼 실제 제작 워크플로에 필요한 기능이 핵심 차별점이 된다.
  • 확산(diffusion) 일변도였던 이미지 생성에 결합 진동자 같은 대안 구조가 등장한 점은, 더 효율적인 생성 방식의 여지가 남아 있음을 시사한다. 다만 현재 결과물은 개념 증명 수준이다.
  • 최상위 모델 접근이 제한될수록 오픈소스 모델의 전략적 가치가 커진다. 영상은 특정 국가·기관의 정책에 좌우되지 않는 자체 호스팅 가능성을 '주권(sovereignty)' 관점에서 강조한다.

자주 묻는 질문

원 스트리머 아바타가 자연스러운 대화를 할 수 있는 이유는?

단일 트랜스포머 모델이 텍스트·오디오·영상을 함께 처리하고, 약 200ms 지연과 25fps로 스트리밍하기 때문이다. 말하는 동안에도 듣고 보며 반응하는 양방향(듀플렉스) 통신을 지원한다. 다만 현재는 192p 저해상도의 0.1 버전이다.

IBM의 '서브 1나노' 칩은 어떻게 기존 한계를 넘는가?

0.7나노(7옹스트롬)급 기술로, 트랜지스터를 평면이 아니라 수직으로 쌓고 엇갈리게 배치하는 '나노 스택' 3D 구조를 쓴다. 손톱 크기 칩에 약 1천억 개 트랜지스터를 담아 2021년 2나노 칩 대비 성능 최대 50%, 에너지 효율 70% 향상을 목표로 한다.

시드댄스 2.5는 이전 버전과 무엇이 다른가?

영상에 따르면 최대 30초 길이, 50개 멀티모달 레퍼런스, 박스를 그려 특정 영역만 고치는 정밀 부분 편집, 2K/4K 출력, 강화된 장면·캐릭터 일관성과 네이티브 오디오를 지원한다. 텍스트→영상의 단순 생성을 넘어 제작 도구에 가깝게 설계됐다.

영상이 오픈소스 모델을 강조한 이유는?

GPT 5.6, 클로드 마이토스·페이블 같은 최상위 모델 접근이 일부 신뢰 파트너로 제한되는 상황을 들며, 특정 정책에 접근이 좌우되지 않도록 GLM·딥시크·큐엔 등 직접 호스팅 가능한 오픈소스 모델의 중요성이 커진다고 봤다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식