AI VIDEO BRIEFING

Gemini Omni 영상 생성 실전 후기: 물리 정확도·5장 레퍼런스·대화형 편집과 한계

Gemini에 들어온 영상 생성 모델 Omni를 물리 시뮬레이션, 캐릭터 일관성, 대화형 장면 편집 측면에서 직접 테스트했다. Nano Banana 2 연계와 Seedance 2 비교, 그리고 10초 제한 등 현실적 한계까지 정리한다.

출처: AI Master2026년 6월 16일AI 보조 요약

구글 Gemini의 영상 생성 'Omni' 실전 점검: 물리·캐릭터 일관성·대화형 편집 영상 대표 이미지

핵심 메시지

Omni는 물리적으로 그럴듯한 움직임과 시각 이벤트에서 직접 생성되는 네이티브 오디오를 보여 주지만, 생성마다 결과가 달라 보통 두세 번 시도해야 깨끗한 결과를 얻는다.
캐릭터 일관성은 최대 5장의 레퍼런스 사진으로 잡으며, 정면뿐 아니라 다양한 각도를 넣어야 영상 속 회전·측면에서도 얼굴이 무너지지 않는다.
대화형 편집으로 클립을 '살아 있는 객체'처럼 고칠 수 있지만, 장면 메모리는 기존 요소 수정에만 유지되고 새 공간을 보여 주는 '리프레임'에서는 무너진다.
Nano Banana 2로 4K 히어로 프레임을 먼저 확정하고 Omni로 움직임을 입히는 파이프라인이 가장 안정적이며, 한 클립 제작에 약 4분이 걸렸다.
10초 길이 제한, 실제 인물 대사 편집 차단, 미공개 API, 워터마크 등 현실적 제약이 분명해 도입 여부는 작업 유형에 따라 갈린다.

쉽게 이해하기

영상은 구글이 공개 데모로 쓴 '구슬(마블)' 클립을 그대로 재현하며 Omni의 본질을 짚는다. 발표자는 세 가지를 본다고 말한다. 오르막에서 감속하고 내리막에서 가속하는 실제 같은 운동량, 별도 사운드가 아니라 시각 이벤트에서 생성된 네이티브 오디오, 그리고 여러 번 생성했을 때의 일관성이다. 물리와 충돌음은 인상적이었지만 구슬이 이전 위치로 튀는 등 생성마다 편차가 있어, 깨끗한 결과를 얻으려면 두세 테이크가 필요하다고 본다.

가장 공들여 검증한 부분은 캐릭터 일관성이다. Omni는 최대 5장의 레퍼런스 사진으로 인물을 고정하는데, 발표자는 정면 사진만 다섯 장 넣는 대신 여러 머리 각도를 담아야 한다고 강조한다. 정면만 주면 모델이 본 적 없는 측면 형상을 추측해야 하기 때문이다. 실제로 다양한 각도를 넣은 클립은 카메라 움직임과 각도 변화가 풍부했고, 단순한 정면 한 장만 준 클립은 모델이 스스로 각도를 줄여 '안전하게' 촬영했다.

대화형 편집은 차별점으로 꼽힌다. 머그컵 하나로 시작해 크루아상 추가, 황금빛 조명으로 변경까지 두 번의 편집 동안 머그와 테이블, 카메라 각도가 그대로 유지됐다. 그러나 카메라를 빼서 방을 더 보여 달라는 세 번째 편집에서는 머그가 다른 머그로 바뀌고 의자가 난데없이 나타났다. 결론은 '리프레임은 이어붙이기가 아니라 새 장면(컷)으로 취급하라'는 것이다.

실제 촬영 영상 편집도 시험한다. 손에 든 유리잔을 커피 머그로 바꾸는 로컬 객체 교체는 사실상 해결된 수준이고, 배경을 카페로 바꾸는 글로벌 교체도 잘 작동했다. 다만 세로로 올린 영상을 모델이 임의로 가로로 바꿔 내보내는 일이 있어, 숏폼·릴스용이라면 출력 비율을 매번 확인해야 한다.

마지막으로 Nano Banana 2 + Omni 파이프라인(구글 Flow)과 Seedance 2 비교가 나온다. NB2가 4K 히어로 프레임에서 구도·색·스타일을 고정한 뒤 Omni가 애니메이션을 입히는 방식이 안정적이었다. 순수 영상 품질에서는 분위기와 연속 촬영, 핸드헬드 질감 면에서 Seedance 2가 앞섰고, 캐릭터 유사성과 대화형 편집은 Omni의 강점으로 정리된다.

주요 인사이트

레퍼런스 팩은 '캐스팅 세션'처럼 구성해야 한다. 영상에 머리를 돌리는 동작이 있다면 레퍼런스에도 그 각도가 있어야 하며, 레퍼런스의 품질이 곧 캐릭터 일관성의 천장이 된다.
장면 메모리는 강력하지만 범위가 있다. 프레임 안의 요소를 더하거나 바꾸는 동안에는 유지되지만, 처음 만들지 않은 새 공간을 보여 달라고 하면 무너진다.
이미지 우선 워크플로가 유리하다. 텍스트로 곧장 영상을 만들기보다 NB2로 구도를 먼저 확정하고 Omni로 움직임만 얹으면 아트 디렉션 제어가 훨씬 좋아진다.
도입 판단은 작업 유형에 달렸다. 콘텐츠를 활발히 제작 중이고 B롤·히어로샷이 필요하면 지금 써도 좋지만, 10초를 넘는 클립이나 같은 얼굴이 20개 클립을 끌고 가야 하는 토킹헤드 시리즈라면 아직 이르다.
프로페셔널 납품 전에는 워터마크와 표기를 고려해야 한다. 모든 클립에 워터마크가 들어가므로, 별도 고지 없이 실제 촬영본처럼 쓰기는 어렵다.

자주 묻는 질문

Omni로 깨끗한 결과를 한 번에 얻을 수 있나?

단일 물리 상호작용은 구글 데모에 근접한 품질을 보이지만, 생성마다 편차가 있어 보통 두세 번 시도한 뒤 한 번이 깨끗하게 나온다고 본다.

캐릭터 얼굴 일관성을 높이려면?

최대 5장의 레퍼런스 사진을 쓰되, 정면 사진만 모으지 말고 영상에서 실제로 필요한 각도(예: 측면, 3/4, 위쪽)를 포함해야 한다.

대화형 장면 편집은 어디까지 유지되나?

프레임 안의 기존 요소를 더하거나 조명을 바꾸는 편집에는 장면 메모리가 유지되지만, 카메라를 빼 새 공간을 보여 달라고 하면 사물이 바뀌는 등 무너진다.

Omni의 현재 한계는 무엇인가?

클립이 10초로 제한되고, 실제 인물의 대사 편집은 차단되며, 개발자 API의 가격·모델 ID가 아직 공개되지 않았고, 모든 출력에 워터마크가 삽입된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗