AI VIDEO BRIEFING

OpenClaw 심층 분석: 자율 AI 에이전트를 만드는 설계 원리와 3계층 구조

UC 버클리 박사과정 연구자가 OpenClaw 코드를 직접 뜯어보며 정리한 자율 에이전트 설계 원리. 커넥터·게이트웨이·런타임 3계층, 하트비트와 크론, 스킬 중심 확장성을 설명한다.

자율 AI 에이전트는 무엇이 다른가: ‘OpenClaw’ 설계 원리 심층 해부 영상 대표 이미지

핵심 메시지

  • LLM은 다음 토큰 예측기에서 어시스턴트, 정적 오케스트레이션 에이전트를 거쳐, 이제 동적 도구 발견과 자기 수정이 가능한 ‘자율 에이전트’ 단계로 진입했다.
  • 모든 에이전트 시스템은 결국 LLM 호출로 귀결되며, 차이는 오직 ‘어떤 맥락을 묶어 보내느냐’에 있다. 하네스는 그 맥락을 조립하는 패키지다.
  • OpenClaw는 커넥터(외부 소통), 게이트웨이 컨트롤러(세션·메모리·보안), 에이전트 런타임(LLM 호출·도구·환경)의 3계층으로 구성된다.
  • 크론으로 예측 가능한 시간 작업을, 하트비트로 예측 불가능한 점검을 처리해 에이전트에 ‘살아 있는 듯한’ 자율성과 시간 감각을 부여한다.
  • 설정·성격·기억이 모두 마크다운 텍스트 파일로 관리되고, MCP보다 ‘스킬’이 가장 쉽고 효과적인 확장 수단으로 자리 잡고 있다.

쉽게 이해하기

강연자인 UC 버클리 박사과정생 알렉스 크렌첼은 OpenClaw가 왜 그렇게 잘 작동하는지 궁금해 한 달여간 직접 써 보고 코드를 깊이 파고든 결과를 정리한다. 그는 LLM의 역사를 단계로 나눠 설명한다. 처음에는 단순한 다음 토큰 예측기였고, 이후 대화를 흉내 내도록 미세조정된 어시스턴트가 등장했으며, 그다음에는 LangChain·AutoGen·CrewAI처럼 정적으로 짜인 순서대로 도구를 호출하는 ‘범위 한정 에이전트’가 나왔다. 그리고 2025년 말~2026년에 이르러, 무엇을 어떻게 분해하고 어떤 도구를 부를지 스스로 정하는 ‘자율 에이전트’ 단계에 들어섰다고 본다.

그는 모든 시스템이 결국 OpenAI·구글·앤트로픽 백엔드로 가는 LLM 호출로 환원되며, 차이는 오직 함께 보내는 맥락에 있다고 강조한다. 마트료시카 인형에 비유해, 트랜스포머가 토큰 하나를 만들고, 그 호출을 반복해 문장을 만들고, 다시 그 위를 어시스턴트가 감싸고, 또 그 위를 도구 쓰는 에이전트가 감싸는 식으로 ‘루프의 중첩’이 점점 깊어져 왔다고 설명한다. OpenClaw는 그 가장 바깥에서 자기 환경을 온전히 소유하고 스스로 도구를 추가하거나 자신을 수정할 수 있는 단계에 해당한다.

아키텍처는 세 계층이다. 맨 위 커넥터 계층은 WhatsApp·Gmail·Discord·iMessage 같은 사람용 인터페이스를 (다소 투박하게 리버스 엔지니어링해) 연결한다. 가운데 게이트웨이 컨트롤러는 들어오는 메시지를 알맞은 세션으로 라우팅하고 메모리와 보안을 관리한다. 맨 아래 에이전트 런타임은 모델 제공자 선택, 컨텍스트 구성, 도구 실행, 실제 LLM 호출을 담당한다. 핵심 추상은 운영체제의 프로세스에 대응하는 ‘세션’으로, 각 세션은 독립된 컨텍스트·권한을 갖고 그 안에서 스레드처럼 여러 에이전트를 띄울 수 있다.

강연자가 꼽는 ‘마법’의 상당 부분은 시간 관리에 있다. 크론 매니저는 ‘매일 오전 9시’처럼 예측 가능한 반복 작업을 미리 예약하게 해 주고, 30분마다 깨어나는 하트비트 세션은 예측 불가능한 상황을 점검하다가 문제를 발견하면 다른 세션을 깨워 처리하게 한다. 이 둘이 합쳐져 에이전트는 예정된 일과 예정되지 않은 일을 모두 다룰 수 있고, 그 결과 ‘잠들지 않고 늘 일하는’ 자율적 존재처럼 느껴진다는 것이다. 흥미롭게도 사용자·성격(soul)·작동 지침 같은 설정이 모두 마크다운 파일로 저장되고, OpenClaw는 첫 부팅 때 스스로 인터넷을 뒤져 사용자가 누구인지 채워 넣는다.

도구와 스킬도 구분해 설명한다. 도구는 읽기·쓰기·검색·웹·크론·세션 간 통신처럼 코드로 실행되는 기능이고, 스킬은 ‘이 일을 이렇게 하라’는 마크다운 레시피로서 LLM에 맥락을 제공하는 텍스트다. 한때 모든 것으로 여겨지던 MCP보다, 작성이 쉽고 효과적인 스킬이 비전문가에게도 가장 좋은 확장 수단으로 떠오르고 있다고 그는 말한다. 마지막으로 그는 OpenClaw가 스스로 EC2 VM을 띄워 웹사이트를 배포하거나, 31편의 교육 영상을 자율적으로 만들어 유튜브에 올린 사례를 들며, 핵심은 예쁜 결과물이 아니라 ‘의도에서 완성까지’ 여러 서비스를 가로질러 끝까지 해내는 자율성이라고 강조한다.

주요 인사이트

  • 에이전트의 본질은 결국 맥락 조립이다. ‘하네스’는 LLM 호출에 필요한 모든 컨텍스트를 묶어 보내는 패키지이며, 발전의 방향은 이 루프를 얼마나 깊고 자율적으로 중첩하느냐에 있다.
  • 크론(예측 가능한 시간)과 하트비트(예측 불가능한 점검)라는 두 시간 메커니즘이 자율성의 핵심이다. 시간 차원을 통제하게 되면서 에이전트는 비로소 ‘살아 있는 듯한’ 느낌을 갖는다.
  • 강연자는 ‘코드 품질은 죽었다’고 도발적으로 말한다. OpenClaw 코드 자체는 조악하지만 설계(아키텍처)는 훌륭하며, 구현 추상보다 설계 추상이 더 중요해지는 시대를 보여준다고 본다.
  • 보안은 형식적으로 증명하기보다, 사람을 피싱 교육으로 보호하듯 ‘충분히 똑똑한 추론’이 스스로 합리적 선택을 하도록 거는 베팅에 가깝다. 이는 공격 표면인 동시에 강력함의 원천이다.

자주 묻는 질문

OpenClaw는 어떤 점에서 이전 에이전트와 다른가?

이전의 LangChain·AutoGen 같은 도구는 정해진 순서대로 도구를 호출하는 정적 오케스트레이션이었다. OpenClaw는 무엇을 어떻게 분해하고 어떤 도구를 부를지 스스로 정하며, 자신의 스킬·도구·코드를 수정해 자기 자신을 개선할 수 있는 자율 단계에 있다.

크론과 하트비트는 각각 무슨 역할을 하나?

크론은 ‘매일 오전 9시 논문 요약’처럼 예측 가능한 반복 작업을 미리 예약하게 해 준다. 하트비트는 기본 30분마다 세션을 깨워 예측 불가능한 상황을 점검하고, 문제가 있으면 다른 세션을 깨워 처리하게 한다.

OpenClaw를 돌리려면 고성능 하드웨어가 필요한가?

그렇지 않다. 실제 연산 대부분은 LLM 제공자가 처리하고 OpenClaw는 맥락을 묶는 일을 하므로, 강연자는 월 20달러짜리 클라우드 VM 같은 평범한 서버로 충분하다고 말한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식