AI VIDEO BRIEFING

AI 에이전트 메모리와 세션 설계: 단기·장기 기억으로 개인화하는 법

구글 클라우드 테크가 반려동물 쇼핑 에이전트 예제로 설명하는 메모리·세션 활용법. 단기·장기 기억, 새 정보 갱신, 사용자 데이터 통제, MCP 활용까지 정리했다.

출처: Google Cloud Tech2025년 9월 11일AI 보조 요약

메모리와 세션이 AI 에이전트를 똑똑하게 만드는 법: 반려동물 쇼핑 예제로 보기 영상 대표 이미지

핵심 메시지

LLM은 기본적으로 현재 질문과 의도만 알 뿐, 사용자가 반려묘를 두 마리 키운다거나 과거 주문·선호가 있다는 사실은 모른다. 이 간극을 메우는 것이 메모리다.
메모리는 작업 중 쓰는 작업 메모리, 현재 상호작용 상태를 담는 단기 메모리(세션), 사용자 속성·주문 이력 같은 장기 메모리로 나뉜다.
세션 시작 시 장기 메모리 전체가 아니라 이번 대화에 관련된 부분집합(최근 주문 몇 건, 관련 선호)만 골라 단기 메모리로 불러온다.
세션이 끝나면 새로 생긴 정보(예: 새로 입양한 새끼 고양이)를 프로세서가 LLM으로 요약해 장기 메모리(DB)에 반영하고, 다음 대화에서 최신 상태로 활용한다.
메모리는 사용자 정보뿐 아니라 시스템 동작(예: 특정 상황에서 쓰면 안 되는 도구)도 담을 수 있으며, 이는 곧 컨텍스트 엔지니어링이자 소프트웨어 엔지니어링이다.

쉽게 이해하기

영상은 반려동물 쇼핑 에이전트를 예로 들어 메모리와 세션이 왜 필요한지 보여준다. 사용자가 "새끼 고양이에게 좋은 장난감이 뭐야?"라고 물으면 에이전트는 LLM의 도움으로 제품 카탈로그를 시맨틱 검색해 유사한 상품을 찾아 준다. 하지만 이때 LLM은 사용자의 현재 의도와 질문만 알 뿐, 이미 늙은 고양이가 한 마리 더 있다거나 예전에 이 가게에서 주문한 적이 있다거나 특정 사료를 선호한다는 사실은 전혀 모른다.

이 간극을 메우는 것이 메모리다. 강연자는 앞선 회차 내용을 되짚으며 메모리를 세 가지로 정리한다. 특정 작업 중에 쓰는 작업 메모리, 지금 에이전트에서 벌어지는 현재 상태를 담는 단기 메모리(세션), 그리고 사용자 속성이나 과거 주문 이력처럼 시간이 지나도 유지되는 장기 메모리다. 이 정보들이 합쳐질 때 쇼핑 에이전트가 비로소 쓸모 있어진다.

장기 메모리에는 사용자와 반려동물 정보, 최근·과거 주문 이력, 프로필에 설정한 선호가 데이터베이스로 저장된다. 세션이 시작되면 이 방대한 정보를 전부 불러오지 않고, 이번 질의에 관련된 부분집합(최근 주문 몇 건, 좋아하는 사료 종류 같은 선호)만 단기 메모리로 소환한다. 그 뒤 각 질문마다 이 장기 정보를 컨텍스트로 함께 넘겨 LLM이 사용자의 선호에 맞는 답을 내도록 한다.

문제는 새로 생긴 정보다. 이번 주말에 새끼 고양이를 입양했다면 DB에는 아직 그 사실이 없다. 이를 위해 세션이 끝나면 정보를 프로세서로 보내고, 프로세서는 LLM으로 새로운 요점(새 고양이가 생겼다는 사실)을 요약해 DB의 사용자 정보를 갱신한다. 다음에 다시 접속하면 에이전트가 최신 상태를 알고 답한다. 동시에 사용자가 선호를 바꾸거나 특정 정보를 삭제(redact)할 수 있는 인터페이스를 제공해, 규정을 준수하면서 사용자가 자기 데이터를 통제하도록 한다.

메모리는 사용자 정보 외에 시스템 동작에도 쓰인다. 예컨대 "이 상황에서는 이 도구를 쓰지 말라"는 규칙을 저장해 에이전트가 잘못된 도구를 반복 선택하지 않게 할 수 있다. 강연자들은 이것이 컨텍스트 엔지니어링이면서 결국 소프트웨어 엔지니어링이라고 강조하고, 메모리와 상태 관리에 모델 컨텍스트 프로토콜(MCP)을 활용해 메모리를 생성·갱신하거나 특정 도구·서브 에이전트에 메모리의 부분집합만 전달할 수 있다고 설명한다.

주요 인사이트

개인화의 핵심은 "무엇을 기억하느냐"가 아니라 "무엇을 이번 세션에 꺼내오느냐"다. 장기 메모리 전체가 아니라 관련 부분집합만 단기 메모리로 불러와야 답의 품질과 효율이 함께 올라간다.
새 정보 반영은 세션 종료 시 프로세서가 LLM으로 요약해 장기 메모리에 기록하는 흐름으로 자연스럽게 이뤄진다. 정보 삭제도 같은 흐름에서 원하는 부분만 빼고 저장하면 된다.
메모리는 사용자에 대한 지식뿐 아니라 시스템 운영 지식(도구 사용 규칙 등)까지 담아 에이전트 행동 자체를 교정하는 수단이 된다.
MCP 서버를 메모리·상태 관리 계층으로 두면, 서브 에이전트나 특정 도구에 필요한 메모리만 선택적으로 넘기는 핸드오프를 소프트웨어 엔지니어링처럼 설계할 수 있다.

자주 묻는 질문

세션(단기 메모리)과 장기 메모리는 어떻게 함께 쓰이나?

세션이 시작되면 장기 메모리(DB)에서 이번 대화에 관련된 부분집합만 단기 메모리로 불러오고, 각 질문마다 그 정보를 컨텍스트로 LLM에 넘겨 개인화된 답을 만든다. 세션이 끝나면 새 정보를 요약해 장기 메모리에 다시 저장한다.

대화 중 새로 생긴 정보는 어떻게 반영되나?

세션이 끝날 때 정보를 프로세서로 보내고, 프로세서가 LLM으로 새 요점을 요약해 데이터베이스의 사용자 정보를 갱신한다. 그래서 다음 접속 때 에이전트가 최신 상태를 반영해 답한다.

메모리는 사용자 정보만 저장하나?

아니다. 특정 상황에서 쓰면 안 되는 도구 같은 시스템 동작 규칙도 저장할 수 있어, 에이전트가 잘못된 도구를 반복 선택하지 않도록 행동을 교정하는 데 쓰인다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗