AI VIDEO BRIEFING

롱러닝 AI 에이전트로 운영체제·3D 게임 만들기 (구글 에이전틱 스택)

단발 프롬프트가 아니라 목표를 향해 며칠씩 스스로 일하는 '롱러닝 에이전트'. 구글 클라우드 데모에서 클로드 코드의 goal 기능으로 브라우저 OS와 걸어 다니는 3D 비디오 가게를 만든 과정을 정리했다.

하루를 넘겨 돌아가는 AI 에이전트: 구글 스택으로 운영체제와 3D 비디오 가게를 만들다 영상 대표 이미지

핵심 메시지

  • 코딩은 대표적인 '장시간 워크플로'다. 실제 소프트웨어는 한 번의 프롬프트가 아니라, 서로 의존하며 예상치 못하게 실패할 수 있는 문제들의 연쇄로 만들어진다.
  • 챗봇식 코딩은 처음 무언가 크게 깨지면 포기하기 쉽다. 필요한 것은 가짜 수정을 지어내지 않고 스스로 교정하며 목표를 이룰 때까지 계속 일하는 능력이다.
  • 발표자는 클로드 코드의 'goal' 프리미티브에 하나의 명세와 지시만 주고, 목표가 충족될 때까지 턴을 거듭하게 해 브라우저에서 도는 간단한 운영체제 'AddyOS'를 만들었다.
  • 두 번째 데모는 156MB짜리 대형 Blender 파일에서 출발해, 브라우저에서 걸어 다닐 수 있는 3D 비디오 대여점 장면을 만든 것 — 익스포트·최적화·조명이라는 어려운 기술 문제의 연쇄를 에이전트가 풀어냈다.
  • 에이전트는 몇 시간이 아니라 결국 2~3일을 돌며 많은 코드를 생성했다. 핵심은 하나의 거대한 에이전트가 전부 아는 게 아니라, 각 단계를 끈질기게 자기교정하며 끝까지 가는 것이다.

쉽게 이해하기

발표자는 코딩이야말로 장시간(long-running) 워크플로의 전형이라고 짚는다. 진짜 소프트웨어는 단일 프롬프트로 뚝딱 나오지 않고, 서로 의존하는 문제들의 사슬이며 각 단계는 프롬프트가 미리 예상하지 못한 방식으로 깨질 수 있다. 그래서 챗봇식 코딩은 처음 크게 막히는 순간 손을 놓아버리기 쉽고, 우리가 원하는 것은 가짜 해법을 환각하지 않고 스스로 교정해 목표에 도달할 때까지 계속 일하는 에이전트라고 말한다.

첫 데모로 그는 클로드 코드에 하나의 명세와 한 줄의 지시만 주고, 'goal' 프리미티브를 이용해 목표가 충족될 때까지 턴을 반복하게 했다. 결과물은 브라우저에서 도는 간단한 운영체제로, 그는 이를 'AddyOS'라 불렀다. 창 관리자, IndexedDB 기반 파일 시스템, 터미널, 파일 탐색기 등을 갖췄고, 데모에서는 텍스트 편집기로 문서를 만들고 저장하며 글자 수를 세는 모습, 파일 브라우저, 그림판, 음악 시각화, 심지어 자체 버전의 둠(Doom)까지 보여준다.

두 번째 데모는 훨씬 복잡하다. 그는 자신이 게임 개발자도 Blender 전문가도 아니라고 밝히며, 어린 시절의 비디오 대여점을 걸어 다닐 수 있는 3D 장면으로 되살리고 싶었다고 말한다. 인터넷에서 구한 156MB짜리 Blender 파일이 출발점이었는데, 브라우저에서는 보통 5~10MB 이상을 로드하지 않으려 하므로 접근 방식을 통째로 다시 생각해야 했다.

에이전트는 건너뛸 수 없는 어려운 기술 문제의 연쇄를 풀어야 했다. 먼저 익스포트 파이프라인 — Blender의 Draco 양자화를 서로 다른 변환을 가진 메시에서 지오메트리를 깨뜨리지 않고 처리하기 위해 파이썬 스크립트를 직접 작성했다. 다음은 최적화 — 거대한 GLTF 파일과 텍스처를 지연 로드가 가능하도록 압축·리사이즈·변환하면서도 화질을 유지했다. 마지막은 조명 — 브라우저에서 어색해 보이던 Blender 영역광을 비디오 가게 특유의 분위기에 맞게 손봤다.

완성된 장면에는 중앙 카운터, 카드보드 포스터, 마스코트, 티셔츠와 초콜릿바, 선반의 비디오 테이프, '백 투 더 퓨처'·'인디아나 존스'·호러 아이콘 진열까지 명세에 적은 디테일이 담겼다. 그는 이 작업이 결국 2~3일을 돌며 많은 코드를 생성했다고 밝히며, 전문가가 아니어도 에이전트가 몇 시간이고 끈질기게 매달려 브라우저에서 바로 도는 복잡한 결과물을 만들어냈다는 점을 강조한다.

주요 인사이트

  • 장시간 에이전트의 가치는 '자기교정'에 있다. 한 번 실패하면 포기하는 대신, 가짜 수정을 지어내지 않고 다음으로 넘어가 목표까지 밀고 간다.
  • 'goal' 프리미티브는 사람이 매 턴 개입하지 않아도 목표 충족 시점까지 작업을 이어가게 하는 핵심 장치다.
  • 전문성이 없어도 결과를 낼 수 있다 — 발표자는 Blender·게임 개발 전문가가 아니었지만, 어려운 부분(익스포트·압축·조명)을 에이전트가 대신 풀었다.
  • 브라우저용 3D는 용량이 관건이다. 156MB 원본을 5~10MB 수준으로 줄이는 최적화 파이프라인이 '걸어 다닐 수 있는 장면'을 가능케 했다.
  • 복잡한 결과물은 단계의 연쇄다. 익스포트→최적화→조명처럼 건너뛸 수 없는 문제를 순서대로 풀어야 비로소 완성된다.

자주 묻는 질문

'롱러닝(long-running) 에이전트'란 무엇인가요?

단발 프롬프트로 끝내는 대신, 지정한 목표가 충족될 때까지 여러 턴에 걸쳐 스스로 계속 일하는 에이전트입니다. 발표자의 데모에서는 몇 시간을 넘어 결국 2~3일까지 돌며 많은 코드를 생성했습니다.

운영체제 'AddyOS'에는 어떤 기능이 들어갔나요?

브라우저에서 도는 간단한 OS로, 창 관리자와 IndexedDB 기반 파일 시스템, 터미널, 파일 탐색기를 갖췄습니다. 데모에서는 텍스트 편집기, 파일 브라우저, 그림판, 음악 시각화, 자체 버전의 둠(Doom)까지 보여줬습니다.

3D 비디오 가게 장면에서 가장 어려웠던 점은 무엇인가요?

156MB짜리 Blender 파일을 브라우저에서 걸어 다닐 수 있게 만드는 것이었습니다. 에이전트는 Draco 양자화로 지오메트리가 깨지지 않게 익스포트하고, GLTF 파일을 지연 로드 가능하도록 압축·리사이즈하며, 조명을 원래 분위기에 맞게 조정하는 문제를 차례로 풀었습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식