AI 에이전트 메모리와 학습·적응: 단기/장기 기억과 PPO·DPO 완전 정리
미시간주립대 강의로 보는 AI 에이전트의 두 축. 단기·장기 메모리와 시맨틱·에피소드·절차 기억, 그리고 PPO와 DPO로 모델을 적응시키는 방법을 정리했다.
핵심 내용 읽기 →AI TOPIC
PPO 관련 핵심 뉴스와 활용 인사이트 2편을 최신순으로 모았습니다.

미시간주립대 강의로 보는 AI 에이전트의 두 축. 단기·장기 메모리와 시맨틱·에피소드·절차 기억, 그리고 PPO와 DPO로 모델을 적응시키는 방법을 정리했다.
핵심 내용 읽기 →
대규모 언어 모델을 인간의 선호와 가치에 맞추는 기술 RLHF를, 강화학습의 기본 개념과 4단계 학습 과정, 그리고 비용·편향 같은 한계까지 정리한다.
핵심 내용 읽기 →