AI VIDEO BRIEFING

에이전트 AI 완전 가이드 2026: LLM·트랜스포머·RAG부터 모델과 에이전트 차이까지

AI 전문가 아이쉬와리아 스리니바산이 LLM의 토큰 예측 원리부터 트랜스포머와 어텐션, 컨텍스트 엔지니어링, RAG, 추론 모델, 그리고 모델과 에이전트의 결정적 차이까지 AI 에이전트의 작동 원리를 단계별 사다리로 풀어 설명한다.

출처: Aishwarya Srinivasan2026년 6월 19일AI 보조 요약

에이전트 AI 완전 정리: LLM에서 스스로 일하는 AI 에이전트까지 영상 대표 이미지

핵심 메시지

LLM은 본질적으로 다음에 올 토큰을 확률로 예측하는 '예측 기계'이며, 같은 질문에도 답이 달라지는 비결정성은 버그가 아니라 온도(temperature)로 조절되는 창의성의 원천이다.
2017년 트랜스포머의 '어텐션'이 모든 단어를 동시에 보게 만들었고, 오늘날 GPT·클로드·제미나이·라마는 모두 이해와 생성을 한곳에서 처리하는 '디코더 전용' 모델이다.
프롬프트 엔지니어링은 사라진 게 아니라 '컨텍스트 엔지니어링'으로 진화했다 — 모델은 컨텍스트 창에 넣어준 것만 알기 때문에 무엇을 어떤 순서로 얼마나 넣을지가 핵심 기술이 됐다.
RAG는 '닫힌 책 시험'을 '열린 책 시험'으로 바꾸는 기법으로, 벡터 데이터베이스에서 의미 기반으로 검색(Retrieval)→가공(Augmentation)→생성(Generation)한다.
모델이 '뇌'라면 에이전트는 거기에 도구라는 '손발'을 붙인 것이며, 추론→행동→관찰을 반복하는 ReAct 루프가 거의 모든 현대 에이전트의 심장이다.

쉽게 이해하기

발표자는 대부분의 사람이 '챗GPT에 입력하면 답이 나오는' 한 조각만 이해할 뿐, API 호출과 실제로 일을 해내는 에이전트 사이의 거대한 간극은 모른다고 지적한다. 그는 이 간극을 사다리에 비유해 맨 아래 칸부터 한 단계씩 올라가며 약 30분 안에 AI 에이전트의 작동 원리를 설명한다.

사다리의 첫 칸은 대규모 언어 모델(LLM)이다. LLM은 인터넷·책·코드의 패턴을 학습한 '가장 똑똑한 자동완성'으로, 입력을 토큰 단위로 읽고 다음 토큰을 하나씩 예측한다. 같은 질문에 다른 답이 나오는 이유는 모델이 가능한 다음 토큰들의 확률 목록에서 가중치를 둔 주사위를 굴려 표본을 뽑기 때문이며, 이 '무작위성'의 정도를 온도 설정으로 조절한다.

그다음 칸은 트랜스포머다. 2017년 구글의 'Attention Is All You Need' 논문이 제시한 어텐션은 문장의 모든 단어를 동시에 보고 서로의 관련성을 따지게 했다. 원래 트랜스포머는 이해를 담당하는 인코더와 생성을 담당하는 디코더로 나뉘었지만, 글쓰기·대화·코딩에는 디코더만으로 충분하다는 것이 밝혀져 오늘날 주요 모델은 모두 디코더 전용 구조다. 발표자는 모델에 텍스트뿐 아니라 이미지·영상을 입력하거나 출력하는 멀티모달 개념도 함께 설명한다.

윗칸으로 갈수록 모델 주변의 '보이지 않는 배관'이 중요해진다. 사용자의 입력은 모델에 곧장 가지 않고 시스템 프롬프트, 대화 기록, 검색된 지식, 도구 정의, 메모리 등과 함께 컨텍스트 창에 조립된다. 모델은 컨텍스트 창 안의 것만 알기 때문에, 무엇을 넣을지 설계하는 컨텍스트 엔지니어링이 프롬프트 엔지니어링을 대체했다. 그중 검색된 지식을 다루는 기법이 RAG로, 벡터 임베딩으로 의미 기반 검색을 한 뒤 가공해 생성에 활용한다.

맨 윗칸은 추론 모델과 에이전트다. 추론 모델은 답하기 전에 단계별로 생각하는 '사고의 사슬'을 만들어 수학·코딩 같은 어려운 작업의 정확도를 높인다. 그리고 도구(웹 검색, 코드 실행, DB 질의, 이메일 전송 등)를 쥐여 주는 순간 모델은 에이전트가 된다. 발표자는 ReAct 루프와 함께 앤드류 응이 정리한 네 가지 패턴(반성, 도구 사용, 계획, 멀티 에이전트 협업), 그리고 비결정적 시스템을 신뢰하려면 정성적 품질을 정량 지표로 바꾸는 평가(Evals)가 필요하다고 강조한다.

주요 인사이트

LLM의 비결정성은 결함이 아니라 의도된 기능이다 — 온도를 낮추면 예측 가능해지고 높이면 창의적이 되며, 이 '다이얼'이 모델을 로봇이 아닌 살아 있는 듯 느끼게 한다.
인코더(BERT처럼 이해·분류 특화)와 디코더(생성 특화)의 구분을 알면, 왜 GPT 계열이 다음 단어를 끝없이 이어가는 디코더 전용 구조로 수렴했는지가 명확해진다.
컨텍스트 창은 모델의 단기 작업 기억이며, 잘 정리된 한 장짜리 브리핑을 주는 것과 10년치 어수선한 파일을 쏟아붓는 것의 차이가 곧 컨텍스트 엔지니어링의 핵심이다.
모델과 에이전트를 가르는 단 하나의 기준은 '행동 능력'이다 — 병 속의 뇌는 항공권 예약을 멋지게 생각할 수는 있어도 직접 예약하지 못하며, 도구가 손발이 되어야 에이전트가 된다.
에이전트는 비결정적이라 같은 작업도 다르게 동작하므로, 무엇이 '좋은'지 정의하고 수치로 측정하는 평가 체계 없이는 개선도 신뢰도 불가능하다.

자주 묻는 질문

모델과 에이전트의 차이는 무엇인가요?

모델은 생각·추론·처리를 하는 '뇌'이고, 에이전트는 그 뇌에 웹 검색·코드 실행·이메일 전송 같은 도구라는 '손발'을 붙여 실제로 세상에서 행동하게 만든 것입니다. 모델은 생각만 하고, 에이전트는 생각하고 행동합니다.

온도(temperature)란 무엇인가요?

모델이 다음 토큰을 고를 때 얼마나 과감하게 표본을 뽑을지 조절하는 설정입니다. 온도가 낮으면 정해진 레시피를 충실히 따르듯 예측 가능해지고, 높으면 더 창의적이고 의외의 답을 내놓습니다.

RAG는 왜 필요한가요?

LLM은 학습 시점까지의 지식만 기억하는 '닫힌 책 시험'을 보는 학생과 같습니다. RAG는 답하기 전에 벡터 데이터베이스에서 관련 문서를 찾아 보여주어 '열린 책 시험'으로 바꿔, 회사 내부 문서나 최신 뉴스처럼 모델이 모르던 정보에 근거해 답하게 합니다.

ReAct 루프는 어떻게 동작하나요?

에이전트가 무엇을 할지 추론(Reason)하고, 도구를 호출해 행동(Act)하고, 그 결과를 관찰(Observe)한 뒤 다시 추론하는 과정을 작업이 끝날 때까지 반복하는 패턴입니다. 가설을 세우고 단서를 확인하며 수사를 진행하는 탐정과 같습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗