AI VIDEO BRIEFING
Gemini 비전 에이전트 만들기: Nano Banana·Veo 3로 웹캠을 영상으로 변환
Mac 웹캠 프레임을 예술 작품과 시네마틱 영상으로 바꾸는 비전 에이전트를 Google Gemini·Nano Banana·Veo 3로 구축하는 방법을 정리했다. MCP 도구 등록과 쿠버네티스 에이전트 설계, 인물 일관성까지 다룬다.

핵심 메시지
쉽게 이해하기
이 영상에서 Jon Capobianco는 자신이 만든 '비전 에이전트'를 소개한다. 단순한 챗봇을 넘어, 표준 Mac 웹캠으로 잡은 한 프레임을 예술 작품으로 바꾸는 것이 목표다. 이 에이전트는 생성형 미디어, 구글 Gemini 생태계, 그리고 사용자의 예술적 아이디어를 결합한다. 카메라를 설정하고 사진을 캡처·변환한 뒤 그 사진을 애니메이션으로 만들 수 있으며, 가족사진이나 좋아하는 이미지를 업로드할 수도 있고, 카메라 앞에서 수어로 소통하는 미국 수어(ASL) 대화 모드도 갖췄다.
모든 것은 Gemini API 키를 중심으로 돌아간다. 정적 업로드 대신 실시간 프레임을 캡처해 곧바로 처리에 넘기며, 사진을 반 고흐 풍 그림으로 바꾸거나 수어를 실시간 해석하는 등 자유로운 프롬프트도 받는다. 발표자는 이를 표준 파이썬 앱이 아니라 'kagent', 즉 쿠버네티스 위에서 AI를 실행하도록 돕는 오픈소스 프레임워크 기반의 쿠버네티스 에이전트로 만들었다고 밝힌다. 에이전트 아키텍처를 택한 이유는, 카메라와 Nano Banana, Veo 3 사이의 복잡한 오케스트레이션을 확장 가능한 단일 마이크로서비스로 제공하면서 더 넓은 자동화 워크플로우에 통합하고 클라우드 네이티브로 만들기 위해서다.
동작 방식은 이렇다. 먼저 에이전트가 카메라 루틴을 감지해 Mac 카메라나 iPhone 등 로컬 장치를 끌어온다. 개별 프레임을 멀티모달 모델에 넘기는 지점에서 MCP(모델 컨텍스트 프로토콜)가 등장하는데, 발표자는 fastMCP 서버를 이용해 카메라 제어와 AI 엔진을 깔끔하게 호출 가능한 도구로 등록했다. 덕분에 에이전트는 서브프로세스나 MCP 도구로 하드웨어를 감지하고, 언제 클라우드 API를 호출할지 스스로 추론하며 순서를 밟아 나간다.
핵심 처리는 Nano Banana에서 이뤄진다. 이는 구글의 강력한 이미지 생성·편집 엔진으로, 단순히 필터를 씌우는 것이 아니라 원본 사진의 얼굴·수염·머리·배경을 분석해 초현실주의 같은 화풍을 입히면서도 인물의 일관성을 유지한다. 이 과정은 Gemini 3 Pro 이미지 위에서 돌아가며, 모델의 '원샷 정체성 고정(one-shot identity lock)' 덕분에 프레임마다 다른 사람처럼 보이지 않는다. 변환된 이미지는 구글의 최신 영상 생성 모델 Veo 3로 넘어가 8초 분량의 고화질 시네마틱 영상의 시작 프레임이 된다. Veo 3는 물리·움직임·오디오를 계산하느라 약 2분이 걸리며, 픽셀만 움직이는 것이 아니라 내러티브 오디오까지 생성해 사진에서 살아 움직이는 장면으로의 매끄러운 전환을 만든다.
가장 흥미로운 점은 에이전트에 딸린 미리 정해진 드롭다운에 갇히지 않는다는 것이다. 발표자는 이를 진정한 자연어 에이전트로 만들어, '내 최신 이미지로 시네마틱 영상을 만들어 줘'라고 입력하면 카메라, 화풍을 담당하는 Nano Banana, 움직임을 담당하는 Veo 3 사이의 오케스트레이션을 비전 에이전트가 알아서 처리한다. 이는 재미있는 아이디어에서 완전히 동작하는 비전 통합 워크플로우로 얼마나 빠르게 갈 수 있는지를 보여준다. 발표자는 이 프로젝트가 오픈소스이며 시작하기 쉽다고 강조하면서, 시청자도 생성형 미디어로 자신만의 에이전트를 만들어 결과물을 공유해 달라고 권한다.
주요 인사이트
- 실시간 카메라 프레임을 멀티모달 모델에 바로 넣는 구조는, 정적 업로드 중심의 기존 방식과 달리 카메라를 살아있는 입력으로 다룬다.
- 같은 기능을 파이썬 앱 대신 쿠버네티스 에이전트(kagent)로 만들면 클라우드 네이티브 확장성과 자동화 워크플로우 통합이라는 이점을 얻는다.
- MCP는 카메라 제어·AI 엔진 같은 이질적 기능을 표준화된 '호출 가능한 도구'로 묶어, 에이전트가 스스로 추론하며 단계를 밟게 해준다.
- 인물 일관성(원샷 정체성 고정)은 사진을 영상으로 확장할 때 프레임마다 얼굴이 바뀌는 문제를 막는 핵심 기능이다.
- 자연어 인터페이스는 미리 정의된 버튼 대신 한 문장 지시로 여러 모델의 오케스트레이션을 위임할 수 있게 한다.
자주 묻는 질문
이 비전 에이전트는 어떤 기술 위에 만들어졌나요?
구글 Gemini 생태계를 중심으로, 이미지 변환에는 Nano Banana(Gemini 3 Pro 이미지), 영상 생성에는 Veo 3를 사용한다. 전체는 Gemini API 키를 기반으로 동작하며, 쿠버네티스에서 AI를 실행하는 오픈소스 프레임워크 위의 'kagent'로 구현됐다.
왜 일반 파이썬 앱이 아니라 에이전트로 만들었나요?
발표자는 카메라와 Nano Banana, Veo 3 사이의 복잡한 오케스트레이션을 확장 가능한 단일 마이크로서비스로 제공하면서, 더 넓은 자동화 워크플로우에 통합하고 클라우드 네이티브로 만들기 위해 에이전트 아키텍처를 택했다고 설명한다.
사진을 영상으로 바꿀 때 얼굴이 매번 달라지지 않나요?
이미지 변환은 Gemini 3 Pro 이미지의 '원샷 정체성 고정' 기능으로 얼굴 특징을 일관되게 유지한다. 덕분에 Veo 3로 영상을 만들어도 프레임마다 다른 사람처럼 보이지 않는다.
영상 생성에는 얼마나 걸리나요?
변환된 이미지를 시작 프레임으로 삼아 Veo 3가 약 2분에 걸쳐 물리·움직임·오디오를 계산해 8초 분량의 고화질 영상을 만든다. 단순 애니메이션이 아니라 내러티브 오디오까지 함께 생성한다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗