AI VIDEO BRIEFING

Gemini Omni 영상 생성 실전 후기: 물리 정확도·5장 레퍼런스·대화형 편집과 한계

Gemini에 들어온 영상 생성 모델 Omni를 물리 시뮬레이션, 캐릭터 일관성, 대화형 장면 편집 측면에서 직접 테스트했다. Nano Banana 2 연계와 Seedance 2 비교, 그리고 10초 제한 등 현실적 한계까지 정리한다.

구글 Gemini의 영상 생성 'Omni' 실전 점검: 물리·캐릭터 일관성·대화형 편집 영상 대표 이미지

핵심 메시지

  • Omni는 물리적으로 그럴듯한 움직임과 시각 이벤트에서 직접 생성되는 네이티브 오디오를 보여 주지만, 생성마다 결과가 달라 보통 두세 번 시도해야 깨끗한 결과를 얻는다.
  • 캐릭터 일관성은 최대 5장의 레퍼런스 사진으로 잡으며, 정면뿐 아니라 다양한 각도를 넣어야 영상 속 회전·측면에서도 얼굴이 무너지지 않는다.
  • 대화형 편집으로 클립을 '살아 있는 객체'처럼 고칠 수 있지만, 장면 메모리는 기존 요소 수정에만 유지되고 새 공간을 보여 주는 '리프레임'에서는 무너진다.
  • Nano Banana 2로 4K 히어로 프레임을 먼저 확정하고 Omni로 움직임을 입히는 파이프라인이 가장 안정적이며, 한 클립 제작에 약 4분이 걸렸다.
  • 10초 길이 제한, 실제 인물 대사 편집 차단, 미공개 API, 워터마크 등 현실적 제약이 분명해 도입 여부는 작업 유형에 따라 갈린다.

쉽게 이해하기

영상은 구글이 공개 데모로 쓴 '구슬(마블)' 클립을 그대로 재현하며 Omni의 본질을 짚는다. 발표자는 세 가지를 본다고 말한다. 오르막에서 감속하고 내리막에서 가속하는 실제 같은 운동량, 별도 사운드가 아니라 시각 이벤트에서 생성된 네이티브 오디오, 그리고 여러 번 생성했을 때의 일관성이다. 물리와 충돌음은 인상적이었지만 구슬이 이전 위치로 튀는 등 생성마다 편차가 있어, 깨끗한 결과를 얻으려면 두세 테이크가 필요하다고 본다.

가장 공들여 검증한 부분은 캐릭터 일관성이다. Omni는 최대 5장의 레퍼런스 사진으로 인물을 고정하는데, 발표자는 정면 사진만 다섯 장 넣는 대신 여러 머리 각도를 담아야 한다고 강조한다. 정면만 주면 모델이 본 적 없는 측면 형상을 추측해야 하기 때문이다. 실제로 다양한 각도를 넣은 클립은 카메라 움직임과 각도 변화가 풍부했고, 단순한 정면 한 장만 준 클립은 모델이 스스로 각도를 줄여 '안전하게' 촬영했다.

대화형 편집은 차별점으로 꼽힌다. 머그컵 하나로 시작해 크루아상 추가, 황금빛 조명으로 변경까지 두 번의 편집 동안 머그와 테이블, 카메라 각도가 그대로 유지됐다. 그러나 카메라를 빼서 방을 더 보여 달라는 세 번째 편집에서는 머그가 다른 머그로 바뀌고 의자가 난데없이 나타났다. 결론은 '리프레임은 이어붙이기가 아니라 새 장면(컷)으로 취급하라'는 것이다.

실제 촬영 영상 편집도 시험한다. 손에 든 유리잔을 커피 머그로 바꾸는 로컬 객체 교체는 사실상 해결된 수준이고, 배경을 카페로 바꾸는 글로벌 교체도 잘 작동했다. 다만 세로로 올린 영상을 모델이 임의로 가로로 바꿔 내보내는 일이 있어, 숏폼·릴스용이라면 출력 비율을 매번 확인해야 한다.

마지막으로 Nano Banana 2 + Omni 파이프라인(구글 Flow)과 Seedance 2 비교가 나온다. NB2가 4K 히어로 프레임에서 구도·색·스타일을 고정한 뒤 Omni가 애니메이션을 입히는 방식이 안정적이었다. 순수 영상 품질에서는 분위기와 연속 촬영, 핸드헬드 질감 면에서 Seedance 2가 앞섰고, 캐릭터 유사성과 대화형 편집은 Omni의 강점으로 정리된다.

주요 인사이트

  • 레퍼런스 팩은 '캐스팅 세션'처럼 구성해야 한다. 영상에 머리를 돌리는 동작이 있다면 레퍼런스에도 그 각도가 있어야 하며, 레퍼런스의 품질이 곧 캐릭터 일관성의 천장이 된다.
  • 장면 메모리는 강력하지만 범위가 있다. 프레임 안의 요소를 더하거나 바꾸는 동안에는 유지되지만, 처음 만들지 않은 새 공간을 보여 달라고 하면 무너진다.
  • 이미지 우선 워크플로가 유리하다. 텍스트로 곧장 영상을 만들기보다 NB2로 구도를 먼저 확정하고 Omni로 움직임만 얹으면 아트 디렉션 제어가 훨씬 좋아진다.
  • 도입 판단은 작업 유형에 달렸다. 콘텐츠를 활발히 제작 중이고 B롤·히어로샷이 필요하면 지금 써도 좋지만, 10초를 넘는 클립이나 같은 얼굴이 20개 클립을 끌고 가야 하는 토킹헤드 시리즈라면 아직 이르다.
  • 프로페셔널 납품 전에는 워터마크와 표기를 고려해야 한다. 모든 클립에 워터마크가 들어가므로, 별도 고지 없이 실제 촬영본처럼 쓰기는 어렵다.

자주 묻는 질문

Omni로 깨끗한 결과를 한 번에 얻을 수 있나?

단일 물리 상호작용은 구글 데모에 근접한 품질을 보이지만, 생성마다 편차가 있어 보통 두세 번 시도한 뒤 한 번이 깨끗하게 나온다고 본다.

캐릭터 얼굴 일관성을 높이려면?

최대 5장의 레퍼런스 사진을 쓰되, 정면 사진만 모으지 말고 영상에서 실제로 필요한 각도(예: 측면, 3/4, 위쪽)를 포함해야 한다.

대화형 장면 편집은 어디까지 유지되나?

프레임 안의 기존 요소를 더하거나 조명을 바꾸는 편집에는 장면 메모리가 유지되지만, 카메라를 빼 새 공간을 보여 달라고 하면 사물이 바뀌는 등 무너진다.

Omni의 현재 한계는 무엇인가?

클립이 10초로 제한되고, 실제 인물의 대사 편집은 차단되며, 개발자 API의 가격·모델 ID가 아직 공개되지 않았고, 모든 출력에 워터마크가 삽입된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗
#Gemini#AI영상생성#구글AI#NanoBanana#영상편집