AI VIDEO BRIEFING

월드 모델(World Model)이란? AI가 행동의 결과를 예측하고 계획하는 원리와 활용

구글 지니와 엔비디아 코스모스, 얀 르쿤의 JEPA까지, 현재 세계 상태와 행동으로 미래를 예측하는 월드 모델의 정의와 생성형·예측형 두 구현 학파, 그리고 자율주행·로봇·게임·에이전트 활용 사례를 한눈에 정리했다.

월드 모델이란 무엇인가: AI가 세상을 예측하는 법 영상 대표 이미지

핵심 메시지

  • 월드 모델은 현재 세계 상태와 가상의 행동을 입력받아, 그 행동이 만들어낼 미래 세계 상태를 예측하는 AI 시스템이다.
  • 개념의 뿌리는 1943년 심리학자 케네스 크레이크가 제시한 '마음속 소형 현실 모델'이며, 2018년 논문 'World Models'가 이를 머신러닝으로 가져왔다.
  • 구현 방식은 크게 두 갈래다. 영상처럼 사람이 볼 수 있는 형태로 미래를 생성하는 '생성형'과, 얀 르쿤의 JEPA처럼 추상적 임베딩 공간에서 예측하는 '비생성형(예측형)'이다.
  • 대표 활용은 자율주행·로봇용 합성 데이터 생성, 실시간 상호작용 가상 세계, 그리고 에이전트의 학습·계획을 돕는 모델 기반 강화학습이다.
  • 월드 모델은 시각에 국한되지 않으며, 코드 저장소 같은 소프트웨어 환경의 다음 상태를 예측하는 데도 쓰인다.

쉽게 이해하기

일반적인 영상 생성 모델은 중력이나 가림 같은 일부 물리 법칙은 이해하지만, 자율주행 같은 생산 시스템이 요구하는 수준으로 현실의 동역학을 파악하지는 못한다. 이 간극을 메우기 위해 등장한 개념이 '월드 모델'이다. 엄밀히 말해 월드 모델은 현재 세계 상태와 취할 수 있는 가상의 행동을 함께 입력받아, 그 행동이 반영된 미래 상태를 예측하는 시스템이다.

이 아이디어는 1943년 스코틀랜드 심리학자 케네스 크레이크가 '인간의 마음은 현실의 소형 내부 모델을 갖고 여러 대안을 시험해 본다'고 제안한 데서 비롯됐다. 약 80년 뒤인 2018년 'World Models' 논문은 이를 머신러닝에 적용해, 둠(Doom) 변형 게임을 배우는 에이전트가 내부 모델로 행동 결과를 상상하도록 했다. 오늘날 연구자들은 월드 모델이 계획·추론·안전한 행동을 갖춘 AI의 핵심이라는 데 대체로 동의한다.

입력의 형태(현재 상태 + 행동)에는 대부분 합의가 이뤄져 있지만, 출력을 얼마나 충실하게 표현할지에서 두 학파가 갈린다. 생성형은 엔비디아 코스모스, 구글 딥마인드 지니, 페이페이 리의 월드랩스처럼 완결된 영상 등 사람이 볼 수 있는 형태로 미래를 만든다. 코스모스 프레딕트는 사실상 표준 영상 확산 모델에, 물리 중심으로 엄선한 2천만 시간 이상의 데이터와 물리 인식 텍스트 인코더(코스모스 리즌)를 더한 구조다.

반대편의 예측형(비생성형)은 얀 르쿤이 대표한다. 그는 픽셀 복원 손실이 본질적으로 한계가 있다고 보고, 세부 픽셀 대신 세계의 근본 법칙을 담는 고수준 표현을 학습해야 한다고 주장한다. 메타의 V-JEPA 2-AC는 자기지도 방식으로 학습한 영상 인코더에 행동 조건 예측 모듈을 결합해, 픽셀이 아니라 임베딩 공간에서 미래를 예측한다.

활용은 세 갈래로 정리된다. 첫째, 자율주행·로봇의 부족한 데이터를 보강하는 합성 데이터 생성(웨이브의 가이아, 웨이모의 지니 파인튜닝 등)이다. 둘째, 텍스트 한 줄로 3D 세계를 만들어 탐험하는 실시간 상호작용(지니, 월드랩스의 마블)이다. 셋째, 에이전트가 배포 전 모델 안에서 연습하거나(모델 기반 강화학습·드리머), 추론 시점에 여러 행동의 결과를 펼쳐 보고 최선을 고르는 실시간 계획(뮤제로·모델 예측 제어)이다.

주요 인사이트

  • 같은 '월드 모델'이라도 엔비디아 코스모스 계열에서는 스타일 전송·시각언어 모델까지 뭉뚱그려 부르는 등 용어가 느슨하게 쓰이므로, 엄밀한 정의(상태+행동→미래 상태)를 기준으로 구분해 이해해야 한다.
  • 확산 모델의 잠재 공간은 고차원 영상을 다루기 위한 계산 효율 장치일 뿐 손실은 여전히 픽셀 수준에서 정의되는 반면, JEPA의 잠재 공간은 손실 자체가 임베딩으로 정의된다는 점이 두 학파의 근본 차이다.
  • 물리 인식 텍스트 인코더(코스모스 리즌)는 '떨어진 뒤 깨진 달걀'과 '깨진 뒤 떨어진 달걀'처럼 토큰 수준에선 비슷해도 물리적으로 다른 상황을 구분되는 임베딩으로 표현한다.
  • 구글 지니가 월 250달러 요금제에서 세계 하나당 1분만 탐험을 허용하는 것은, 세션 전체를 기억해 일관성을 유지해야 하는 기술적·비용적 한계를 드러낸다.
  • 월드 모델은 시각에 국한되지 않는다. 메타의 '코디드 월드 모델'은 저장소·터미널을 세계로, 풀 리퀘스트를 행동으로 보고 실행 결과를 예측해, 전체 테스트를 돌리지 않고도 잠재 문제를 빠르게 잡으려 한다.

자주 묻는 질문

월드 모델과 일반 영상 생성 모델의 차이는 무엇인가요?

구조는 비슷할 수 있지만, 코스모스 프레딕트 같은 월드 모델은 물리 중심으로 엄선한 데이터(엔비디아 기준 2천만 시간 이상)로 학습하고 물리 인식 텍스트 인코더를 쓴다는 점이 핵심 차이입니다. 일반 영상 생성기는 실사·게임·만화·슬라이드 등 가리지 않고 학습합니다.

생성형과 예측형 월드 모델은 어떻게 다른가요?

생성형은 미래를 영상 등 사람이 볼 수 있는 형태로 출력해 합성 데이터나 상호작용 환경으로 쓰기 좋습니다. 예측형(얀 르쿤의 JEPA 계열)은 픽셀 대신 추상적 임베딩 공간에서 미래를 예측해, 색상 같은 무관한 세부에 휘둘리지 않고 근본 패턴을 담으려 합니다.

월드 모델은 실제로 어디에 쓰이나요?

자율주행·로봇용 합성 데이터 생성(웨이브 가이아, 웨이모), 텍스트로 만드는 실시간 3D 세계(지니, 월드랩스 마블), 그리고 에이전트가 배포 전 모델 안에서 연습하거나 추론 시점에 여러 행동 결과를 시뮬레이션해 최선을 고르는 계획에 쓰입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식