AI TOPIC

PPO 최신 뉴스와 핵심 해설

PPO 관련 핵심 뉴스와 활용 인사이트 2편을 최신순으로 모았습니다.

Prof. Ghassemi Lectures and Tutorials2026. 7. 2.

AI 에이전트 메모리와 학습·적응: 단기/장기 기억과 PPO·DPO 완전 정리

미시간주립대 강의로 보는 AI 에이전트의 두 축. 단기·장기 메모리와 시맨틱·에피소드·절차 기억, 그리고 PPO와 DPO로 모델을 적응시키는 방법을 정리했다.

IBM Technology2026. 6. 21.

대규모 언어 모델을 인간의 선호와 가치에 맞추는 기술 RLHF를, 강화학습의 기본 개념과 4단계 학습 과정, 그리고 비용·편향 같은 한계까지 정리한다.