AI VIDEO BRIEFING

AI 에이전트란? 복합 AI 시스템·추론·도구·메모리와 ReAct 방식 정리

IBM의 설명 영상을 정리했다. 단일 모델에서 복합 AI 시스템으로의 전환, 제어 논리를 LLM에 맡기는 에이전트적 접근, 추론·행동·메모리라는 세 가지 핵심 능력, 그리고 ReAct 구성 방식과 자율성의 트레이드오프를 짚는다.

출처: IBM Technology2024년 7월 15일AI 보조 요약

AI 에이전트란 무엇인가: 복합 AI 시스템과 ReAct로 이해하기 영상 대표 이미지

핵심 메시지

AI 에이전트를 이해하려면 먼저 단일 모델에서 '복합 AI 시스템'으로의 전환을 봐야 한다. 모델 혼자서는 학습 데이터에 갇혀 개인·실시간 정보를 알지 못한다.
복합 AI 시스템은 모델에 데이터베이스·도구·출력 검증기 같은 여러 구성요소를 모듈처럼 결합한 것으로, RAG가 대표적인 예다.
시스템의 제어 논리(control logic)를 사람이 일일이 정하지 않고 LLM에 맡기는 순간 '에이전트적(agentic)' 접근이 된다.
LLM 에이전트의 핵심 능력은 추론(reason), 행동(act, 도구 사용), 메모리(memory) 세 가지다.
ReAct는 추론과 행동을 결합한 대표적 구성 방식으로, 계획→행동→관찰→재조정을 반복해 최종 답에 도달한다.

쉽게 이해하기

발표자는 2024년을 'AI 에이전트의 해'로 부르며, 에이전트를 이해하려면 단일(모놀리식) 모델에서 복합 AI 시스템으로의 전환을 먼저 봐야 한다고 말한다. 모델은 학습한 데이터에 갇혀 있어 세상에 대한 지식과 풀 수 있는 작업이 제한되고, 조정하려면 큰 비용이 든다. 예컨대 '내 휴가가 며칠 남았는지' 물으면 모델은 사용자를 모르기 때문에 틀린 답을 내놓는다.

해결책은 모델 주변에 시스템을 설계하는 것이다. 휴가 데이터가 든 데이터베이스에 접근 권한을 주고, 모델이 검색 쿼리를 만들어 정보를 가져온 뒤 문장으로 답하게 하면 정답이 나온다. 이것이 '복합 AI 시스템'이며, 여러 구성요소를 모듈처럼 조합한다는 점이 핵심이다. 가장 널리 쓰이는 사례가 검색 증강 생성(RAG)인데, 다만 정해진 경로만 따르도록 설계되면 범위 밖 질문(예: 날씨)에는 실패한다.

질문에 답하기 위해 따라가는 경로를 프로그램의 '제어 논리'라고 부른다. 대부분의 복합 AI 시스템은 사람이 미리 정한 프로그램적 제어 논리를 갖는다. 반면 LLM의 추론 능력이 크게 향상되면서, 제어 논리 자체를 LLM에 맡길 수 있게 됐다. 한쪽 끝이 '빠르게 생각하고 지시대로 행동하라'면, 다른 쪽 끝은 '천천히 생각해 계획을 세우고 막히면 다시 조정하라'이며, LLM에 논리를 맡기는 이 후자가 바로 에이전트적 접근이다.

LLM 에이전트의 능력은 세 가지로 정리된다. 첫째 추론으로, 모델을 문제 해결의 중심에 두고 계획을 세우며 각 단계를 따져 보게 한다. 둘째 행동으로, 검색·계산기·코드·다른 언어 모델·API 같은 외부 '도구'를 모델이 언제 어떻게 호출할지 스스로 정한다. 셋째 메모리로, 모델이 생각을 풀어낸 내부 로그나 사용자와의 대화 이력을 저장해 더 개인화된 경험을 만든다.

대표적 구성 방식인 ReAct는 추론(Reason)과 행동(Act)을 결합한다. 사용자 질문이 들어오면 모델은 천천히 계획하고, 필요하면 도구를 호출해 행동하고, 그 결과를 관찰해 답이 충분한지 판단하며, 부족하면 계획을 고쳐 최종 답에 이른다. 발표자는 플로리다 여행에 필요한 자외선 차단제 병 수를 구하는 복잡한 예로 이를 설명한다. 끝으로 자율성은 0과 1이 아니라 슬라이딩 스케일이며, 좁고 잘 정의된 문제는 프로그램적 방식이, GitHub 이슈 해결처럼 복잡하고 다양한 문제는 에이전트 방식이 유리하다고 정리한다. 정확도가 개선되는 중이라 대개는 사람이 루프 안에 남는다.

주요 인사이트

모델을 미세조정하기보다 모델 주변에 시스템을 설계하는 편이 더 빠르고 유연하게 문제를 해결한다.
'빠르게 생각 vs 천천히 생각' 비유처럼, 복잡한 문제는 계획·분해·재조정을 거칠 때 정답 확률이 올라간다.
자율성은 켜고 끄는 스위치가 아니라 슬라이딩 스케일이며, 문제 성격에 따라 프로그램적 방식과 에이전트 방식의 트레이드오프를 선택해야 한다.
정확도가 아직 개선되는 단계라, 대부분의 경우 여전히 사람이 루프 안에 있어야 한다.

자주 묻는 질문

복합 AI 시스템은 단일 모델과 무엇이 다른가?

단일 모델은 학습 데이터에 갇혀 개인·실시간 정보를 알지 못하지만, 복합 AI 시스템은 데이터베이스·도구 등 여러 구성요소를 모듈처럼 결합해 문제를 더 정확하게 풀어낸다.

LLM 에이전트의 핵심 능력 세 가지는?

계획을 세우는 추론(reason), 외부 도구를 호출하는 행동(act), 내부 로그와 대화 이력을 저장·활용하는 메모리(memory)다.

ReAct 방식이란 무엇인가?

추론(Reason)과 행동(Act)을 결합한 에이전트 구성 방식으로, 계획→행동→관찰을 반복하고 필요하면 계획을 수정하며 최종 답에 이른다.

언제 에이전트 대신 프로그램적 방식이 더 나은가?

좁고 잘 정의된 문제에서는 모든 질문을 같은 경로로 처리하는 프로그램적 방식이 불필요한 반복 없이 더 효율적이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗