AI VIDEO BRIEFING
AI 에이전트 5가지 유형 정리: 반사·모델기반·목표·효용·학습 에이전트
단순 반사, 모델 기반 반사, 목표 기반, 효용 기반, 학습 에이전트까지 AI 에이전트의 다섯 가지 유형을 지능 수준과 의사결정 방식에 따라 예시와 함께 정리했습니다.

핵심 메시지
쉽게 이해하기
영상은 2025년을 ‘AI 에이전트의 해’로 부르며, 에이전트가 지능 수준과 의사결정 과정, 그리고 환경과 상호작용하는 방식에 따라 분류된다고 설명한다. 그 위에서 다섯 가지 주요 유형을 차례로 살핀다.
가장 기본인 단순 반사 에이전트는 온도조절기처럼 미리 정한 규칙을 따른다. 센서로 환경을 인지(percept)하고, ‘조건이면 행동’이라는 조건-행동 규칙으로 판단해 액추에이터로 행동하며, 그 행동이 다시 환경과 다음 인지에 영향을 준다. 규칙이 잘 정의된 구조적·예측 가능한 환경에선 효과적이지만, 과거를 저장하지 않아 동적인 상황에선 같은 실수를 반복할 수 있다. 모델 기반 반사 에이전트는 여기에 세계의 내부 모델을 더한 형태로, 환경이 어떻게 변하고 자신의 행동이 어떤 결과를 내는지를 상태(state)로 추적한다. 로봇 청소기가 지나온 곳·청소한 영역·장애물을 기억하고, 지금 보이지 않는 부분까지 추론·기억하는 것이 그 예다.
목표 기반 에이전트는 모델 기반 위에 ‘목표’를 더한다. 더 이상 조건-행동 규칙이 아니라, 내부 모델로 ‘행동 A를 하면 어떻게 될까’를 시뮬레이션해 목표 달성에 도움이 되는 행동을 고른다. 자율주행차가 목적지 X로 가려 할 때 ‘지금 메인 스트리트에 있고, 좌회전하면 고속도로 쪽이며, 그게 X에 도움이 되는가’를 따져 좌회전을 택하는 식이다. 효용 기반 에이전트는 한 걸음 더 나아가 목표 달성 여부뿐 아니라 결과가 얼마나 바람직한지(효용, 일종의 만족도 점수)까지 계산해 선택지를 순위 매긴다. 드론 배송에서 단순히 ‘주소 X로 배달’이 아니라 ‘빠르고 안전하며 에너지를 최소로 써서 배달’하도록, 여러 경로의 소요 시간·배터리·날씨를 추정해 효용이 가장 높은 경로를 고른다.
다섯 번째인 학습 에이전트는 가장 적응적이고 강력하다. 미리 짜인 규칙이나 목표에만 의존하지 않고 경험에서 배운다. 비평가(critic)가 센서로 결과를 관찰해 성능 기준과 비교하고 보상이라는 수치 신호를 만들면, 학습 요소가 그 피드백으로 상태-행동 매핑을 개선한다. 문제 생성기는 아직 시도하지 않은 새 행동을 제안하고, 성능 요소는 학습 결과에 따라 최적의 행동을 고른다. 수천 번의 대국으로 전략을 다듬는 체스 봇이 대표적이다.
정리하면 단순 반사는 ‘반응’하고(빠르지만 기억 없음), 모델 기반은 ‘기억’하며(상태 추적, 그러나 계획은 못 함), 목표 기반은 ‘지향’하고(목표 지향이지만 달성 방법은 가리지 않음), 효용 기반은 ‘평가’하며(최선의 결과를 고르지만 정확한 효용 함수가 필요), 학습 에이전트는 ‘개선’한다(경험으로 배우지만 가장 느리고 데이터 집약적). 나아가 여러 에이전트가 공유 환경에서 공동 목표를 향해 협력하는 다중 에이전트 시스템도 있으며, 에이전트가 발전해도 당분간은 ‘사람이 개입하는(human in the loop)’ 방식이 가장 잘 작동한다고 영상은 덧붙인다.
주요 인사이트
- 다섯 유형은 ‘반응 → 기억 → 지향 → 평가 → 개선’으로 점점 더 정교한 의사결정 단계를 보여 준다.
- 목표 기반과 효용 기반의 차이는 ‘목표를 이루는가’와 ‘얼마나 잘 이루는가’의 차이다. 효용 함수가 선택의 질을 좌우한다.
- 학습 에이전트의 비평가·학습 요소·문제 생성기·성능 요소 구성은 강화학습의 보상 구조와 맞닿아 있다.
- 더 똑똑한 유형일수록 능력이 커지지만, 학습 에이전트처럼 더 느리고 더 많은 데이터를 요구하는 대가가 따른다.
- 여러 에이전트의 협력(다중 에이전트 시스템)이 강력해지더라도, 당분간은 사람이 개입하는 방식이 가장 안정적이다.
자주 묻는 질문
AI 에이전트의 다섯 가지 유형은 무엇인가요?
단순 반사 에이전트, 모델 기반 반사 에이전트, 목표 기반 에이전트, 효용 기반 에이전트, 학습 에이전트입니다. 뒤로 갈수록 의사결정이 더 정교해집니다.
목표 기반 에이전트와 효용 기반 에이전트는 어떻게 다른가요?
목표 기반 에이전트는 목표를 달성하는 행동이면 어떤 방법이든 택합니다. 효용 기반 에이전트는 목표 달성 여부를 넘어 각 결과가 얼마나 바람직한지(효용)를 점수로 매겨, 가장 효용이 높은 선택지를 고릅니다.
학습 에이전트는 어떻게 스스로 개선하나요?
비평가가 결과를 성능 기준과 비교해 보상 신호를 만들고, 학습 요소가 그 피드백으로 상태-행동 매핑을 개선합니다. 문제 생성기는 새 행동을 제안하고, 성능 요소는 학습된 최적 행동을 선택합니다. 다만 가장 느리고 데이터가 많이 필요합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗