AI VIDEO BRIEFING

AI 에이전트 그래픽 제작, 캔버스가 아니라 HTML로: 슬라이드·문서 자동화의 핵심

코딩 에이전트는 코드만 쓰는 도구가 아니다. 슬라이드·문서·영상 같은 시각 자료를 잘 만들려면 파워포인트 캔버스가 아니라 AI의 모국어인 HTML로 작업하게 하라는 발표를 정리했다.

AI 에이전트에게 슬라이드를 맡기는 법: 캔버스 대신 HTML로 생각하게 하라 영상 대표 이미지

핵심 메시지

  • 코딩 에이전트는 코드 작성기가 아니라 거의 무엇이든 할 수 있는 도구이며, 핵심은 "에이전트처럼 생각하기"다.
  • 파워포인트·피그마·캔바 같은 캔버스 도구는 사람의 손과 눈을 위해 만들어져, 에이전트가 쓰면 글자가 겹치고 정렬이 깨진 결과물이 나온다.
  • AI가 그래픽을 못 만드는 것은 모델의 한계가 아니라 매체(medium)의 문제다. SVG는 숫자의 나열이라 사람도 손으로 못 그린다.
  • AI의 모국어는 픽셀이 아니라 언어(단어·토큰·구조)이며, 레이아웃을 잘 설명하고 어디서나 렌더링되는 HTML이 그 답이다.
  • 편집 포맷은 자의적이다. 청중은 발표 모드만 보므로, 에이전트가 잘 다루는 HTML로 만들고 필요하면 PDF로 변환하면 된다.

쉽게 이해하기

노리(Nori)의 CEO 아몰 카푸어는 코딩 에이전트가 단지 코드만 쓴다는 통념을 "마케팅이 잘못된 것"이라고 말한다. 이름을 잠시 잊으면 코딩 에이전트는 거의 무엇이든 할 수 있고, 비결은 단 하나, 에이전트가 원하는 결과를 내도록 "에이전트처럼 생각하는" 것이라는 주장이다.

발표는 사람들이 에이전트가 가장 못한다고 여기는 영역, 즉 슬라이드·문서·영상 같은 시각 자료 제작을 다룬다. 세상은 매일 약 3만 4천 인년(human years)을 슬라이드 제작에 쏟지만 대부분은 사고가 아니라 서식·브랜딩·요소 이동 같은 "만지작거림"에 쓰인다. 10시간짜리 덱도 그런 부분을 걷어내면 25분이면 된다는 것이다.

문제는 파워포인트·슬라이드·피그마·캔바 같은 도구가 모두 사람의 손과 눈, 즉 클릭·드래그·스냅에 맞춰 설계되었다는 점이다. 그 밑에 데이터 구조가 있지만 해당 앱만 읽을 수 있는 형식이다. 이런 도구를 에이전트에게 쥐여 주면 요소가 겹치고 글자가 안 보이며 정렬이 무너진 결과물이 나온다.

회의론자는 에이전트가 공간을 추론하지 못한다고 말하며 Arc AGI 같은 벤치마크나 사이먼 윌리슨의 "자전거 탄 펠리컨을 SVG로 그려라" 테스트를 든다. 하지만 카푸어는 모델이 아니라 매체가 문제라고 반박한다. 사람에게 펠리컨을 SVG 코드로 손수 적으라고 해도 못 한다. SVG는 숫자의 벽이기 때문이다.

대안은 AI가 생각하는 방식에 맞는 도구를 주는 것이다. 모델이 수십억 개의 예시로 학습했고 직관적으로 이해하며 픽셀로 렌더링되어 어디서나 도는 언어, 바로 HTML이다. 제목·차트·그리드 같은 HTML 태그에는 의미가 내장되어 있어 브라우저가 픽셀로 바꿔 주고, 모델은 좌표를 직접 찍지 않아도 된다. 같은 펠리컨도 HTML로 시키면 훨씬 나아지고, 모든 줄을 읽고 테마를 입히고 수정할 수 있다.

주요 인사이트

  • 파워포인트는 슬라이드 덱과 동의어가 아니라 덱을 만드는 한 도구일 뿐이다. 덱 자체는 발표 모드이고, 편집 포맷이 무엇이었는지는 청중에게 아무 의미가 없다.
  • 노리는 이 "HTML 트릭"으로 발표용·이사회용·세일즈용 슬라이드는 물론 문서와 (이 발표 영상까지) 영상도 만든다. 화면에 보이는 것은 전부 HTML과 CSS, 즉 끝까지 div로 이뤄져 있다.
  • 아름다운 덱 자체는 가치가 없다. 콜 기록·이메일 같은 데이터에 모델이 접근하게 하면 콘텐츠 수집부터 덱 완성까지 끝에서 끝까지 모델이 처리할 수 있다.
  • 평범한 텍스트는 대개 편의를 위한 선택이지만, 정말 쓸모 있는 것을 만들려 한다면 보통 잘못된 선택이다. 약간의 구조와 색이 거의 모든 것을 낫게 만든다.
  • 핵심 교훈은 "사용자처럼 생각하지 말고 모델처럼 생각하라"는 것. 모델에게 올바른 언어를 주면 되고, 그래픽에 필요한 언어는 HTML이다.

자주 묻는 질문

AI 에이전트가 슬라이드나 그래픽을 못 만드는 이유는 모델 성능 때문인가?

발표자는 모델이 아니라 매체의 문제라고 본다. SVG처럼 숫자로 된 형식은 사람도 손으로 못 그리며, 캔버스 도구는 사람의 손·눈에 맞춰져 있어 에이전트가 쓰면 결과가 깨진다는 설명이다.

왜 HTML이 에이전트의 그래픽 제작에 적합한가?

모델이 수십억 개의 예시로 학습해 직관적으로 이해하는 언어이고, 제목·차트·그리드 같은 태그에 의미가 내장되어 브라우저가 픽셀로 렌더링해 주므로 모델이 좌표를 직접 찍지 않아도 되기 때문이다.

편집 포맷으로 HTML을 쓰면 파워포인트나 PDF가 필요한 경우는 어떻게 하나?

발표자는 편집 포맷이 자의적이라 보고, 에이전트가 잘 다루는 HTML로 만든 뒤 나중에 PDF 같은 다른 형식으로 렌더링하면 된다고 말한다. 청중은 발표 모드만 보기 때문이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식