AI VIDEO BRIEFING

AI 에이전트 메모리와 학습·적응: 단기/장기 기억과 PPO·DPO 완전 정리

미시간주립대 강의로 보는 AI 에이전트의 두 축. 단기·장기 메모리와 시맨틱·에피소드·절차 기억, 그리고 PPO와 DPO로 모델을 적응시키는 방법을 정리했다.

출처: Prof. Ghassemi Lectures and Tutorials2025년 9월 26일AI 보조 요약

AI 에이전트의 기억과 학습: 단기·장기 메모리부터 PPO·DPO 파인튜닝까지 영상 대표 이미지

핵심 메시지

에이전트의 메모리는 단기 메모리(LLM 컨텍스트 창 안의 정보)와 장기 메모리(컨텍스트 창 밖에 저장했다가 필요할 때 꺼내오는 정보)로 나뉜다.
컨텍스트 창은 해마다 커져 최신 모델은 수백만 토큰에 이르지만 무한하지 않으며, 관련 없는 정보를 잔뜩 넣으면 오히려 성능이 떨어진다.
장기 메모리는 시맨틱(사용자 관련 고정 사실), 에피소드(과거 사례·예시), 절차(작업 수행 방법) 세 가지 양상으로 구분된다.
장기 메모리를 쓰려면 문서를 청크로 잘라 저장하고, 질의가 오면 시맨틱 유사도 검색으로 관련 청크만 골라 프롬프트에 주입한다.
프롬프트나 메모리로 매번 지시하는 대신 모델 가중치 자체를 바꾸려면 PPO(근접 정책 최적화)나 DPO(직접 선호 최적화)로 학습·적응시킨다.

쉽게 이해하기

강의는 AI 에이전트를 더 똑똑하게 만드는 두 축, 즉 메모리 관리와 학습·적응을 다룬다. 메모리는 에이전트가 과거에 본 중요한 정보를 붙들어 두었다가 현재 질문에 활용하게 해 주는 장치다. 사용자가 프롬프트를 던지면 에이전트는 그 성격에 따라 메모리 시스템을 호출해 필요한 내용을 가져오고, 때로는 가져온 정보를 한 번 더 추론해 답을 만든다.

단기 메모리는 LLM의 컨텍스트 창 안에 담긴 내용 그 자체다. 컨텍스트 창 크기는 2018년 이후 대체로 우상향해 왔고 최신 모델은 수백만 토큰 수준에 이르렀지만, 무한하지 않고 큰 코드베이스나 방대한 문서 앞에서는 이내 한계에 부딪힌다. 게다가 질문과 무관한 정보를 잔뜩 넣으면 모델 성능이 떨어지기 때문에, 이런 한계가 곧 장기 메모리 설계의 동기가 된다.

장기 메모리는 컨텍스트 창 밖에 정보를 저장해 두었다가 추론 직전에 전략적으로 필요한 부분만 밀어 넣는 방식이다. 관계형 데이터베이스, 지식 그래프, 벡터 스토어 등이 저장소로 쓰인다. 핵심은 문서를 그대로 넣는 것이 아니라 적절히 청크로 잘라 두었다가, 질의가 들어오면 검색으로 관련 청크만 찾아 프롬프트에 주입하는 것이다. 강사는 산업 현장에서 장기 메모리 구성 요소를 건드리지 않는 응용은 거의 없다고 강조한다.

장기 메모리는 다시 세 양상으로 나뉜다. 시맨틱 메모리는 사용자에 대한 고정 사실처럼 프롬프트마다 유지하고 싶은 정보이고, 에피소드 메모리는 지금 질문과 비슷한 과거 질문-답변 쌍을 몇 개 예시로 끼워 넣는 것이며, 절차 메모리는 문제를 푸는 여러 경로(예: ReAct 같은 추론 후 행동)를 기억해 두고 어떤 경로가 맞는지 먼저 판단하는 데 쓰인다. 강의는 식료품 목록을 추가·삭제·조회하는 간단한 코드 예제로 이 메모리 상호작용을 실제로 시연한다.

두 번째 축은 학습과 적응이다. 프롬프트에 매번 "이렇게 생각하라"고 넣으면 컨텍스트 창이 금세 무거워지므로, 아예 모델 가중치와 편향 수준에서 응답 패턴을 바꾸는 방법을 다룬다. 강화학습 계열의 PPO는 보상 모델과 가치 함수로 좋은 응답의 정의에 가까워지도록 모델을 조금씩(과도하지 않게 클리핑하며) 갱신한다. DPO는 사용자가 두 답변 중 선호하는 쪽을 고른 라벨 데이터를 이용해 선호 응답 쪽으로 모델을 이동시킨다.

주요 인사이트

컨텍스트 창이 커진다고 모든 정보를 밀어 넣는 것은 오히려 독이다. 관련 없는 맥락은 성능을 떨어뜨리므로, "필요한 것을 필요한 때에" 넣는 장기 메모리 설계가 실전의 정석이다.
메모리를 시맨틱·에피소드·절차로 구분하면, 사용자 고정 정보·유사 사례·문제 해결 경로를 각각 다른 방식으로 다뤄 프롬프트 구성이 훨씬 정교해진다.
PPO와 DPO의 선택 기준은 단순하다. 라벨된 선호 데이터가 있으면 DPO, 없이 맞춤 적응을 하고 싶으면 가치 함수를 정의·학습하는 PPO를 쓴다.
가치 함수는 "이 다음 토큰을 놓았을 때 이후로 얼마나 좋은 응답이 이어질지"에 대한 미래 보상의 추정치이며, 이를 실제 관측 보상과의 오차(가치 손실)로 학습에 반영한다.

자주 묻는 질문

단기 메모리와 장기 메모리는 무엇이 다른가?

단기 메모리는 LLM 컨텍스트 창 안에 담긴 내용 그 자체이고, 장기 메모리는 컨텍스트 창 밖(데이터베이스, 지식 그래프, 벡터 스토어 등)에 저장해 두었다가 추론 직전에 관련 부분만 꺼내 프롬프트에 주입하는 지속 저장 방식이다.

장기 메모리의 세 가지 양상은 무엇인가?

사용자에 대한 고정 사실을 기억하는 시맨틱 메모리, 지금 질문과 유사한 과거 사례·예시를 담는 에피소드 메모리, 작업을 수행하는 방법(문제 해결 경로)을 담는 절차 메모리다.

PPO와 DPO 중 무엇을 써야 하나?

라벨된 선호 데이터가 있다면 두 응답 중 선호를 학습하는 DPO를, 그런 데이터 없이 맞춤형 적응을 하려면 보상 모델과 가치 함수를 정의·학습하는 PPO를 사용한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗