AI VIDEO BRIEFING
AI 에이전트 만들기 실전 — 버셀·커서·콤포지오로 텔레그램 봇 구축하기
버셀 AI SDK, 콤포지오, 슈퍼메모리로 텔레그램에서 대화하며 메일까지 처리하는 AI 에이전트를 처음부터 만드는 과정을 정리했다. 몸·뇌·손 비유로 에이전트 구조를 풀어낸다.

핵심 메시지
쉽게 이해하기
이 강좌는 깃허브 스타 37만 개로 가장 빠르게 성장한 오픈소스 프로젝트 중 하나인 OpenClaw에서 영감을 받아, 텔레그램으로 대화하며 매 대화에서 학습하는 지속 기억형 AI 에이전트를 처음부터 만든다. 버셀 AI SDK, 슈퍼메모리, 콤포지오를 핵심 재료로 쓴다.
강사는 AI 에이전트를 '몸·뇌·손'에 비유한다. 몸은 사용자가 보고 대화하는 버셀 Next.js 채팅 UI, 뇌는 최신 클로드·GPT 같은 AI 모델, 손은 에이전트가 쓸 수 있는 도구다. 채팅 템플릿은 버셀 AI 챗봇 템플릿을 기반으로 해, UI와 데이터베이스 설정의 약 80%를 대신 처리해 준다.
손에 해당하는 부분에서 콤포지오가 등장한다. 콤포지오는 슬랙·노션·깃허브·지메일 등 1,000개 이상 앱의 도구를 제공한다. 다만 지메일 하나만 해도 61개 도구가 딸려 오기 때문에, 연결된 앱이 많아지면 매 요청마다 모든 도구 정의를 읽느라 컨텍스트가 부풀어 정확도가 떨어진다. 콤포지오는 에이전트가 상위 수준의 도구 묶음만 보게 하고 필요할 때 적절한 도구를 검색하게 해 이 문제를 푼다.
컨텍스트 윈도는 모델이 한 번에 기억할 수 있는 정보량(토큰)으로, AI의 단기 기억에 해당한다. 대화가 길어지면 정확도가 떨어지고 세부를 잊는 이유가 여기에 있다. 여기에 슈퍼메모리를 더하면 여러 대화를 가로지르는 장기 기억이 생겨, 이름·선호·진행 중인 프로젝트 같은 사실을 다음 대화에서도 불러올 수 있다.
강사는 '영혼(soul)'이라 부르는 시스템 프롬프트로 에이전트의 성격을 정의하고, 텔레그램 봇파더로 봇 토큰을 발급받아 같은 사용자 ID로 웹과 텔레그램을 연결한다. 마지막으로 버셀 크론으로 정해진 시각에 워크플로를 반복 실행하는 '심장 박동'을 넣어, 사용자가 메시지를 보내지 않아도 에이전트가 스스로 일하게 만든다.
주요 인사이트
- 강사는 코드를 직접 다 짜지 않고 커서 같은 에이전트형 에디터에게 맡긴 뒤, 변경 내용을 검토하고 핵심 테스트만 사람이 확인하는 방식으로 진행한다. 커서는 NPX TSC로 타입스크립트 오류를 스스로 잡고, 하위 에이전트를 띄워 브라우저에서 직접 클릭하며 결과를 검증하기도 한다.
- 사용자에 대한 사실(이름 등)은 슈퍼메모리에, 에이전트의 말투·성격은 '영혼'(시스템 프롬프트)에 따로 저장한다. 기억을 시스템 메시지에 넣지 않는 이유는 느리고 비싸며, 관련 없는 기억까지 끌어와 정확도를 떨어뜨리기 때문이다.
- OAuth를 쓰면 비밀번호를 AI와 공유하지 않고도 지메일 같은 서비스에 제한된 권한만 부여할 수 있고 나중에 권한을 회수할 수도 있다. 콤포지오가 토큰 저장·갱신과 도구 정의를 대신 처리해, 개발자는 통합 작업 대신 에이전트 자체를 개선하는 데 집중할 수 있다.
- 텔레그램 연동에 ngrok을 쓰는 이유는 로컬 개발 환경에서는 HTTP만 쓸 수 있는데 텔레그램 웹훅은 HTTPS가 필요하기 때문이다. 웹훅을 쓰면 앱이 끊임없이 새 메시지를 묻는 대신, 텔레그램이 메시지가 올 때마다 앱으로 보내 주는 단방향 통로가 생긴다.
- 스마트폰이 노트북보다 훨씬 많이 쓰이는 만큼, 에이전트가 브라우저 탭 안에만 있으면 사용자가 찾아오게 만드는 셈이다. 텔레그램 같은 메신저에 에이전트를 넣으면 사용자가 이미 머무는 곳에서 만날 수 있다는 점이 제품 관점의 핵심이다.
자주 묻는 질문
AI 에이전트란 무엇인가?
사람 비서처럼 자신의 환경(채팅, 사용자의 프롬프트 구조)을 인지하고, 추론·계획해 여러 단계를 자율적으로 실행하며, 목표 달성을 위해 파일과 도구를 활용하는 시스템이다. 날씨 조회 같은 단순한 일부터 여러 앱을 가로지르는 워크플로까지 수행한다.
컨텍스트 윈도와 슈퍼메모리는 어떻게 다른가?
컨텍스트 윈도는 한 번의 대화 안에서만 유지되는 단기 기억으로, 토큰 한도를 넘기면 정보가 잊힌다. 슈퍼메모리는 여러 대화를 가로지르는 장기 기억 계층으로, 이름·선호 같은 중요한 사실을 저장해 나중에 다시 불러올 수 있게 한다.
콤포지오는 왜 모든 도구를 한꺼번에 컨텍스트에 넣지 않나?
지메일 하나만 해도 61개 도구가 있어, 연결 앱이 늘면 매 요청마다 모든 도구 정의를 읽느라 컨텍스트가 부풀고 정확도가 떨어진다. 그래서 에이전트는 상위 도구 묶음만 보고, 필요할 때 적절한 도구를 검색해 호출한다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗