AI VIDEO BRIEFING
구글 제미나이 옴니 플래시: 대화형 편집·네이티브 오디오 영상 생성 AI 데모
생성한 영상을 재업로드 없이 대화로 편집하는 구글 제미나이 옴니 플래시. 텍스트·이미지→영상, 종횡비·길이 조정, 멀티턴 재편집까지 개발자 데모로 정리했습니다.

핵심 메시지
쉽게 이해하기
영상 제작자이자 개발자인 진행자는 구글이 다른 영상 AI가 하지 못하던 기능을 담은 새 모델을 공개했다고 소개한다. 핵심은 영상을 생성한 뒤 그것과 '대화하며' 편집할 수 있다는 점이다. 배경을 바꾸거나 캐릭터 스타일, 셔츠 색을 바꾸는 일을 영상을 재업로드하거나 처음부터 다시 만들지 않고 할 수 있다는 것이 제미나이 옴니 플래시의 특징이다.
진행자는 이 모델에서 흥미로운 네 가지를 꼽는다. 첫째는 멀티모달 입력과 오디오 출력으로, 텍스트·이미지·영상을 넣으면 네이티브 오디오가 함께 나오고 캐릭터와 오브젝트가 생성 내내 일관되게 유지된다. 둘째는 앞서 말한 대화형 편집이다. 셋째는 월드 놀리지로, 물체가 움직이거나 춤추는 물리 표현이 번쩍이거나 기이하지 않고 실제처럼 느껴진다. 넷째는 장면과 함께 움직이는 텍스트와 온스크린 연출이다.
이 모델은 구글 I/O에서 공개됐지만 당시엔 개발자용이 아니었고, 이번에 개발자에게 제공되기 시작했다. 진행자는 콘텐츠 제작자이자 개발자로서 텍스트에서 영상을 만들고, 이미지에서 영상을 만들며, 이미 만든 영상을 코드로 편집하고 다시 편집하고 싶다는 요구를 갖고 있다고 말한다. 기존 AI 재편집은 텍스처나 얼굴을 잃거나 원치 않는 배경 변화, 할루시네이션이 생기는데, 옴니 플래시는 이런 문제를 개선했다고 설명한다.
데모는 설명란에 링크된 노트북에서 Interactions API로 진행된다. 텍스트 프롬프트로 영상을 만들고 종횡비를 16:9(가로)나 9:16(세로)로 바꿀 수 있으며, 이미지를 먼저 생성한 뒤 그 이미지로 영상을 만들 수도 있다. API 키는 AI 스튜디오에서 발급받고, 이미지 모델로는 2.5 flash image와 함께 빠르고 비용을 아끼는 나노 바나나 2를 쓸 수 있다. 기본 길이는 10초이며 5초 등으로 바꿀 수 있고, '1960년에 발사된 우주선'처럼 요청해도 월드 놀리지 덕분에 실제답게 표현된다.
진행자는 이미지 두 장을 병합해 영상을 만드는 예(우주비행사와 웜홀)를 보여주며 인터스텔라를 언급하고, 멀티턴 편집을 위해 영상을 저장한 뒤 interaction ID로 '유화풍으로 변환' 같은 재편집을 시연한다. 자신의 영상을 업로드해 '부드러운 오라 추가' 같은 편집도 가능하며, 결과물은 구글 드라이브에 저장할 수 있다. 마지막으로 스크립트 생성부터 다른 AI의 검증, 영상 제작, 유튜브 업로드까지 자동화하는 파이프라인을 만들고 싶다는 구상을 밝힌다.
주요 인사이트
- 생성한 영상을 재업로드 없이 대화로 수정할 수 있다는 점이 기존 영상 AI와의 가장 큰 차별점이다.
- 하나의 프롬프트로 텍스트·영상·이미지·오디오가 함께 나오는 멀티모달 방식이라 오디오나 이미지용 프롬프트를 따로 쓸 필요가 없다.
- interaction ID로 이전 결과물을 재사용해 멀티턴 편집을 하므로, 이전 버전의 텍스처나 얼굴을 잃는 기존 재편집의 약점을 줄인다.
- 종횡비를 세로(9:16)로 바꾸면 유튜브 쇼츠용 영상을 같은 프롬프트로 만들 수 있다.
- 월드 놀리지 덕분에 특정 시대의 우주선 같은 요청도 기이하지 않고 사실적으로 생성된다.
자주 묻는 질문
제미나이 옴니 플래시의 가장 큰 특징은?
생성한 영상을 재업로드하거나 처음부터 다시 만들지 않고, 대화로 배경·캐릭터 스타일·색 등을 바꾸며 편집할 수 있다는 점이다.
어떤 종횡비와 길이를 지원하나?
16:9 가로와 9:16 세로 종횡비를 바꿀 수 있고, 영상 길이는 기본 10초이며 5초 등으로 조정할 수 있다.
데모는 무엇으로 진행되나?
설명란에 링크된 노트북에서 Interactions API로 진행되며, API 키는 AI 스튜디오에서 발급받는다. 이미지 모델로는 2.5 flash image와 나노 바나나 2를 사용할 수 있다.
기존 AI 재편집과 무엇이 다른가?
기존 재편집은 텍스처나 얼굴을 잃거나 원치 않는 배경 변화, 할루시네이션이 생기는데, 옴니 플래시는 영상을 저장하고 interaction ID로 재사용해 이런 문제를 줄인 멀티턴 편집을 제공한다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗