AI VIDEO BRIEFING
Gemini Omni 영상 생성 실전 후기: 물리 정확도·5장 레퍼런스·대화형 편집과 한계
Gemini에 들어온 영상 생성 모델 Omni를 물리 시뮬레이션, 캐릭터 일관성, 대화형 장면 편집 측면에서 직접 테스트했다. Nano Banana 2 연계와 Seedance 2 비교, 그리고 10초 제한 등 현실적 한계까지 정리한다.

핵심 메시지
쉽게 이해하기
영상은 구글이 공개 데모로 쓴 '구슬(마블)' 클립을 그대로 재현하며 Omni의 본질을 짚는다. 발표자는 세 가지를 본다고 말한다. 오르막에서 감속하고 내리막에서 가속하는 실제 같은 운동량, 별도 사운드가 아니라 시각 이벤트에서 생성된 네이티브 오디오, 그리고 여러 번 생성했을 때의 일관성이다. 물리와 충돌음은 인상적이었지만 구슬이 이전 위치로 튀는 등 생성마다 편차가 있어, 깨끗한 결과를 얻으려면 두세 테이크가 필요하다고 본다.
가장 공들여 검증한 부분은 캐릭터 일관성이다. Omni는 최대 5장의 레퍼런스 사진으로 인물을 고정하는데, 발표자는 정면 사진만 다섯 장 넣는 대신 여러 머리 각도를 담아야 한다고 강조한다. 정면만 주면 모델이 본 적 없는 측면 형상을 추측해야 하기 때문이다. 실제로 다양한 각도를 넣은 클립은 카메라 움직임과 각도 변화가 풍부했고, 단순한 정면 한 장만 준 클립은 모델이 스스로 각도를 줄여 '안전하게' 촬영했다.
대화형 편집은 차별점으로 꼽힌다. 머그컵 하나로 시작해 크루아상 추가, 황금빛 조명으로 변경까지 두 번의 편집 동안 머그와 테이블, 카메라 각도가 그대로 유지됐다. 그러나 카메라를 빼서 방을 더 보여 달라는 세 번째 편집에서는 머그가 다른 머그로 바뀌고 의자가 난데없이 나타났다. 결론은 '리프레임은 이어붙이기가 아니라 새 장면(컷)으로 취급하라'는 것이다.
실제 촬영 영상 편집도 시험한다. 손에 든 유리잔을 커피 머그로 바꾸는 로컬 객체 교체는 사실상 해결된 수준이고, 배경을 카페로 바꾸는 글로벌 교체도 잘 작동했다. 다만 세로로 올린 영상을 모델이 임의로 가로로 바꿔 내보내는 일이 있어, 숏폼·릴스용이라면 출력 비율을 매번 확인해야 한다.
마지막으로 Nano Banana 2 + Omni 파이프라인(구글 Flow)과 Seedance 2 비교가 나온다. NB2가 4K 히어로 프레임에서 구도·색·스타일을 고정한 뒤 Omni가 애니메이션을 입히는 방식이 안정적이었다. 순수 영상 품질에서는 분위기와 연속 촬영, 핸드헬드 질감 면에서 Seedance 2가 앞섰고, 캐릭터 유사성과 대화형 편집은 Omni의 강점으로 정리된다.
주요 인사이트
- 레퍼런스 팩은 '캐스팅 세션'처럼 구성해야 한다. 영상에 머리를 돌리는 동작이 있다면 레퍼런스에도 그 각도가 있어야 하며, 레퍼런스의 품질이 곧 캐릭터 일관성의 천장이 된다.
- 장면 메모리는 강력하지만 범위가 있다. 프레임 안의 요소를 더하거나 바꾸는 동안에는 유지되지만, 처음 만들지 않은 새 공간을 보여 달라고 하면 무너진다.
- 이미지 우선 워크플로가 유리하다. 텍스트로 곧장 영상을 만들기보다 NB2로 구도를 먼저 확정하고 Omni로 움직임만 얹으면 아트 디렉션 제어가 훨씬 좋아진다.
- 도입 판단은 작업 유형에 달렸다. 콘텐츠를 활발히 제작 중이고 B롤·히어로샷이 필요하면 지금 써도 좋지만, 10초를 넘는 클립이나 같은 얼굴이 20개 클립을 끌고 가야 하는 토킹헤드 시리즈라면 아직 이르다.
- 프로페셔널 납품 전에는 워터마크와 표기를 고려해야 한다. 모든 클립에 워터마크가 들어가므로, 별도 고지 없이 실제 촬영본처럼 쓰기는 어렵다.
자주 묻는 질문
Omni로 깨끗한 결과를 한 번에 얻을 수 있나?
단일 물리 상호작용은 구글 데모에 근접한 품질을 보이지만, 생성마다 편차가 있어 보통 두세 번 시도한 뒤 한 번이 깨끗하게 나온다고 본다.
캐릭터 얼굴 일관성을 높이려면?
최대 5장의 레퍼런스 사진을 쓰되, 정면 사진만 모으지 말고 영상에서 실제로 필요한 각도(예: 측면, 3/4, 위쪽)를 포함해야 한다.
대화형 장면 편집은 어디까지 유지되나?
프레임 안의 기존 요소를 더하거나 조명을 바꾸는 편집에는 장면 메모리가 유지되지만, 카메라를 빼 새 공간을 보여 달라고 하면 사물이 바뀌는 등 무너진다.
Omni의 현재 한계는 무엇인가?
클립이 10초로 제한되고, 실제 인물의 대사 편집은 차단되며, 개발자 API의 가격·모델 ID가 아직 공개되지 않았고, 모든 출력에 워터마크가 삽입된다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗