AI VIDEO BRIEFING

AI 영상 생성 원리 완벽 해설: 확산 모델·잠재 공간·시공간 패치로 이해하는 Veo·Sora

구글 Veo 3, 소라 같은 AI 영상 생성기는 어떻게 진짜 같은 영상을 만들까. 노이즈를 더하고 빼는 확산 모델, 잠재 공간 압축, 시공간 패치와 어텐션까지 작동 원리를 쉽게 풀었다.

출처: Computerphile2025년 9월 5일AI 보조 요약

AI 영상 생성은 어떻게 작동하나: 노이즈에서 영상을 빚어내는 확산 모델의 원리 영상 대표 이미지

핵심 메시지

AI 영상 생성기는 2D 이미지 생성과 똑같은 '확산(diffusion)' 원리를 쓴다. 이미지에 노이즈를 점점 더해 완전한 잡음으로 만든 뒤, 거꾸로 노이즈를 빼내도록 신경망을 학습시킨다.
영상은 사실 1초에 24~50장씩 이어 붙인 이미지 묶음이다. 2D 방식을 한 프레임씩 따로 적용하면 색·모양이 제멋대로 바뀌어 끊긴 영상이 되므로, 모델이 모든 프레임을 함께 알아야 한다.
Veo 3 기준 8초 영상은 약 1억 7,600만 픽셀에 달해 그대로 처리하면 메모리가 터진다. 그래서 오토인코더로 영상을 '잠재 공간'으로 압축해 처리한다.
영상을 '시공간 패치(space-time patch)'로 잘라 다루고, 트랜스포머의 어텐션으로 미래 프레임과 과거 프레임을 비교해 '시간적 일관성'을 확보한다.
품질이 실제와 구분이 안 될 만큼 좋아지면서, 허위 정보 확산 같은 부작용 우려도 함께 커지고 있다.

쉽게 이해하기

발표자는 2023년 3월 인터넷에서 화제가 된 '윌 스미스가 스파게티를 먹는' AI 영상을 예로 든다. 당시에는 형체만 겨우 알아볼 수준이었지만, 구글의 최신 모델 Veo 3로 만든 같은 영상은 진짜와 가짜를 구분하기 어려울 정도라고 말한다. 이 급격한 발전이 어떻게 가능했는지가 영상의 주제다.

출발점은 2D 이미지 생성의 핵심인 '확산 모델'이다. 개구리 사진에 노이즈(옛날 TV의 지직거리는 화면 같은 잡음)를 단계적으로 더해 완전한 잡음에 이르게 한 뒤, 신경망에게 '이 이미지에서 어떤 노이즈를 빼야 원본이 되는지'를 맞히도록 훈련시킨다. 학습이 끝나면 순수한 잡음에서 출발해 약 20단계에 걸쳐 노이즈를 조금씩 걷어내며 원하는 이미지를 만들어낸다. 이 방식 덕분에 '죽마를 탄 개구리'처럼 현실에 없는 개념도 조합해 생성할 수 있다.

영상은 결국 1초에 24~50장씩 이어 붙인 이미지의 연속이다. 문제는 2D 확산을 프레임마다 독립적으로 돌리면 모델이 직전에 무엇을 그렸는지 모르기 때문에, 개구리 색이 초록에서 파랑으로 바뀌거나 마릿수가 달라지는 등 끊기고 어긋난 영상이 나온다는 점이다. 그래서 학습 단계부터 '개구리가 점프한다'처럼 움직임이 담긴 설명과 함께 영상으로 훈련하고, 각 프레임에는 서로 다른 고유 노이즈를 더해 한 묶음(batch)으로 신경망에 넣는다.

또 다른 난관은 규모다. Veo 3가 만드는 1280×720 해상도, 초당 24프레임, 8초 영상은 약 1억 7,600만 픽셀에 이른다. 이를 그대로 확산 처리하면 구글이나 오픈AI의 대형 서버로도 감당이 안 된다. 해결책은 '오토인코더'다. 인코더가 이미지를 점점 작은 층으로 압축해 '잠재 공간(latent space)'이라는 압축된 표현으로 바꾸고, 디코더가 이를 다시 원래 이미지로 복원한다. 확산은 픽셀이 아니라 이 작고 다루기 쉬운 잠재 공간 위에서 이뤄진다. 비슷한 개념(개구리 두 마리)은 잠재 공간에서 서로 가깝게, 무관한 개념(토성)은 멀리 배치된다.

영상에서는 전체를 한꺼번에 인코더에 넣을 수 없어 '패치'로 잘게 나눈다. 발표자가 특히 강조한 방식은 공간뿐 아니라 시간 축까지 묶은 '시공간 패치'다. 마지막으로 시간적 인과를 학습하기 위해 트랜스포머의 어텐션을 쓴다. 예컨대 '점프하는 개구리' 패치는 '점프'라는 단어, 그리고 땅에 있던 같은 개구리와는 강하게 연결되지만 배경의 구름과는 연결되지 않는다. 이렇게 미래와 과거 프레임을 직접 비교함으로써 영상 전체의 일관성을 유지한다(이는 Veo 3가 아니라 소라가 쓸 것으로 추정되는 방식이라고 덧붙인다).

주요 인사이트

AI 영상 생성의 본질은 '그림 그리기'가 아니라 '노이즈 예측'이다. 잡음에서 무엇을 빼야 하는지를 반복해서 맞히는 과정이 곧 생성이다.
잠재 공간으로의 압축은 단순한 최적화가 아니라 영상 생성을 현실적으로 가능하게 만든 결정적 장치다. 1억 픽셀이 넘는 데이터를 그대로 다루는 것은 최상급 서버로도 비현실적이기 때문이다.
시간적 일관성(temporal consistency)이 영상 생성과 이미지 생성을 가르는 핵심이다. 단순한 프레임별 처리로는 '땅에 있던 개구리가 점프해 공중에 떴다'는 인과를 학습할 수 없고, 어텐션이 이를 해결한다.
Veo 3는 영상뿐 아니라 소리까지 생성할 수 있으며, '랩 배틀하는 개구리' 같은 복잡한 프롬프트도 소화한다. 다만 'computerphile'을 'PA'로 잘못 발음하는 등 아직 한계도 드러낸다.
발표자는 모델이 실제와 구분 불가능해지는 시점에 허위 정보 등 사회적 문제가 따라올 것이라고 경고한다.

자주 묻는 질문

AI 영상 생성기와 AI 이미지 생성기는 작동 원리가 다른가?

근본 원리는 같다. 둘 다 노이즈를 더했다 빼는 확산(diffusion) 방식을 쓴다. 다만 영상은 여러 장의 이미지를 동시에 다뤄야 하고, 프레임 사이의 움직임이 매끄럽게 이어지도록 '시간적 일관성'을 추가로 확보해야 한다는 점이 다르다.

잠재 공간(latent space)을 쓰는 이유는 무엇인가?

Veo 3의 8초 영상은 약 1억 7,600만 픽셀에 달해 픽셀 단위로 직접 확산 처리하면 대형 서버로도 메모리가 부족하다. 오토인코더로 데이터를 훨씬 작은 잠재 공간으로 압축하면 확산 모델이 다루기 쉬워지고, 디코더가 결과를 다시 영상으로 복원한다.

영상이 매끄럽게 이어지도록 하는 비결은 무엇인가?

영상을 시공간 패치로 나눈 뒤 트랜스포머의 어텐션으로 미래 프레임과 과거 프레임을 직접 비교한다. 이를 통해 '점프하는 개구리'가 앞서 땅에 있던 그 개구리임을 모델이 연결해, 영상 전체에 걸친 시간적 일관성을 만든다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗