AI VIDEO BRIEFING
월드 모델이란? LLM의 한계와 AI가 물리 세계를 배우는 방법
텍스트만 학습한 LLM이 물리 세계를 제대로 이해하지 못하는 이유와, 시뮬레이션으로 세상을 배우는 '월드 모델'의 구조·역사·최신 흐름을 쉽게 정리했다.

핵심 메시지
쉽게 이해하기
동전을 던지면 앞뒤가 반반이라는 사실을, 사람은 복잡한 수식 없이도 살면서 물리 법칙을 관찰해 자연스럽게 안다. 하지만 LLM은 이런 '경험'을 할 환경이 없다. 영상은 LLM이 텍스트라는 가장 높은 추상화 단계의 정보만으로 수조 개의 토큰을 몇 달간 학습할 뿐, 사람처럼 여러 감각으로 세계를 직접 겪지는 못한다고 지적한다.
그 대안으로 주목받는 것이 2018년 무렵 다시 떠오른 '월드 모델'이다. 데이비드 하의 원 논문은 세 가지 요소를 제시한다. 먼저 변분 오토인코더 기반의 비전 모델이 환경을 관찰해 핵심 특징만 저차원 잠재 공간으로 압축한다. 이어 MDN-RNN이 과거의 모든 은닉 상태를 기억해 다음에 무엇이 올지 예측하고, 마지막으로 컨트롤러가 이동·물건 집기 같은 실제 행동을 결정한다.
이렇게 학습한 모델은 결국 실제 환경 없이도 자신의 내부 세계 표현만으로 에이전트를 훈련할 수 있게 된다. 초기 실험에서 월드 모델은 5백만 개 미만의 작은 파라미터만으로 무작위 생성된 트랙에서 도로를 벗어나지 않고 주행하는 법을 스스로 익혔다. 이는 인간의 사고 방식에 더 가깝고 AGI에 한 걸음 더 다가서는 접근이라는 주장의 근거가 된다.
그럼에도 LLM이 널리 쓰이는 이유는 뛰어난 확장성에 있다. 월드 모델이 특정 작업에 특화된 반면, LLM은 하나의 범용 모델로 대화·심층 조사·소프트웨어 개발 등 수많은 다운스트림 작업을 처리하는 파운데이션 모델이 됐다. 한편 얀 르쿤은 JEPA 계열 모델을 거쳐 50억 달러 가치를 노리는 회사 AMI를 세우며 LLM의 자기회귀적 한계를 비판해 왔다.
2023년 이후 두 진영의 경계는 흐려지고 있다. GPT-4, 제미나이 같은 멀티모달 모델이 이미지를 인식하고, 비전·언어·행동을 결합한 VLA가 휴머노이드 로봇 '네오'를 움직였다. 페이페이 리의 월드랩스는 가우시안 스플랫 기반 'Marble'을, 구글은 SIMA와 Genie 3로 움직일 수 있는 가상 세계를, 엔비디아는 오픈소스 월드 파운데이션 모델 'Cosmos'를 내놨다. 이런 흐름은 AI 영상 생성, 자율주행 시뮬레이션, 공장 로봇 정렬로 이어지고 있다.
주요 인사이트
- LLM의 한계는 '지능 부족'이 아니라 학습 재료가 텍스트뿐이라는 데서 비롯된다. 언어는 세계를 묘사하지만, 물리적 인과를 직접 관찰한 데이터는 아니다.
- 월드 모델의 핵심 발상은 '데이터를 더 먹이기'가 아니라 'AI 머릿속에 세계의 작동 원리를 시뮬레이션하게 만들기'다. 적은 파라미터로도 의미 있는 행동 학습이 가능하다는 점이 인상적이다.
- 멀티모달 LLM이 이미지를 '본다'고 해도, 비판자들은 여전히 공간 인지가 부족한 LLM이라고 지적한다. 진짜 공간 지능을 향한 시도가 World Labs 같은 스타트업으로 이어지고 있다.
- 월드 모델은 자율주행·로봇·AI 영상처럼 물리 세계와 직접 맞닿은 분야에서 특히 가치가 크다. 시뮬레이션으로 안전하게 데이터를 만들고 훈련할 수 있기 때문이다.
- 두 접근을 양자택일로 볼 필요는 없다. 언어의 추상적 이해와 시뮬레이션 기반의 물리적 이해는 서로를 보완하며 '인공적으로 지능을 증강하는' 더 나은 길을 함께 만들 수 있다.
자주 묻는 질문
월드 모델은 LLM과 무엇이 다른가요?
LLM은 텍스트 토큰을 예측하도록 학습하는 반면, 월드 모델은 비전 모델·기억 모델·컨트롤러를 통해 AI 내부에 물리 세계를 시뮬레이션하고 인과관계를 학습합니다. 즉 세계를 '묘사한 글'이 아니라 '작동 방식 자체'를 모델링하려는 접근입니다.
월드 모델은 왜 LLM처럼 널리 쓰이지 않나요?
LLM은 하나의 범용 모델로 여러 작업을 처리하는 확장성이 뛰어나 파운데이션 모델로 자리 잡았습니다. 반면 월드 모델은 특정 도메인에 특화된 경우가 많아, 아직은 자율주행·로봇·시뮬레이션 등 물리 세계와 맞닿은 분야에서 주로 활용됩니다.
두 기술의 경계가 흐려지고 있다는 건 무슨 의미인가요?
GPT-4·제미나이 같은 멀티모달 LLM이 이미지를 인식하게 됐고, 비전·언어·행동을 결합한 VLA는 휴머노이드 로봇을 움직입니다. 또 구글 Genie 3, 엔비디아 Cosmos처럼 가상 세계를 만드는 모델이 등장하면서 LLM과 월드 모델의 기능이 서로 겹쳐 가고 있습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗