AI VIDEO BRIEFING

AI 에이전트 기초 — LLM 토큰 예측·도구 사용·컨텍스트 윈도우 이해

AI 에이전트가 어떻게 작동하는지 LLM의 토큰 예측 원리부터 도구 사용, 장기 기억, 컨텍스트 윈도우 관리까지 한국어로 정리했다. 단순 챗봇과 도구를 쓰는 에이전트의 흐름 차이를 쉽게 설명한다.

출처: Jordan McKinney2026년 3월 25일AI 보조 요약

AI 에이전트의 기초: LLM은 어떻게 작동하고, 도구와 기억으로 ‘에이전트’가 되는가 영상 대표 이미지

핵심 메시지

LLM은 사전학습으로 인류의 방대한 텍스트를 압축·증류해 만든 ‘고정된 사고 구조’다.
추론(inference) 단계에서 모델은 고정된 어휘에서 확률에 따라 토큰을 하나씩 골라 문장을 이어 붙인다.
‘온도(temperature)’로 약간의 무작위성을 넣어 항상 최고 확률 토큰만 고르지 않게 해야 출력 품질이 좋아진다.
모델은 기억이 없어 매번 ‘기억상실’ 상태로 깨어나며, 시스템 프롬프트가 정체성과 규칙을 알려준다.
에이전트는 핵심 모델에 도구 사용과 장기 기억(외부 파일)을 붙이고, 한정된 컨텍스트 윈도우를 잘 ‘예산 배분’하는 것이 관건이다.

쉽게 이해하기

영상은 AI 에이전트를 ‘24시간 일하는 똑똑한 팀’에 비유하며 시작한다. 사업 아이디어를 내고 실행·반복까지 비교적 저렴한 비용으로 맡길 수 있다는 것이다. 다만 표면적 설명에 그치지 않고, 에이전트를 효과적으로 쓰려면 LLM의 작동 원리를 어느 정도 이해해야 한다고 강조한다.

먼저 모델이 태어나는 학습 과정이다. 사전학습은 수십만 개의 GPU가 몇 달간 가동하며 책과 인터넷 등 인류의 글을 압축·증류해 세계에 대한 핵심 사실과 개념 관계를 담는다. 이렇게 만들어진 사전학습 모델에, 엔지니어가 응답을 올리고 내리며 안전하고 예의 바른 조수로 다듬는 사후학습(post-training)이 더해진다. 완성된 산출물은 수백 GB~1TB 규모로, GPU 몇 장에 올려 추론에 쓴다.

작동 원리의 핵심은 토큰 예측이다. 모델은 보통 2만~5만 개의 토큰(단어·단어 조각)으로 이뤄진 고정 어휘에서, 앞선 입력을 바탕으로 다음에 올 가능성이 높은 토큰을 골라 문장을 이어간다. 항상 최고 확률 토큰만 고르는 게 아니라, ‘온도’ 설정으로 약간 벗어난 선택을 허용해야 더 쓸모 있는 출력이 나온다고 설명한다.

이 모델들은 학습이 끝나면 변하지 않는 정적 구조여서 기억이 없다. 추론 때마다 ‘메멘토’처럼 기억상실 상태로 깨어나기 때문에, 시스템 프롬프트가 ‘너는 정확하고 실용적인 조수다’ 같은 정체성과 규칙을 먼저 알려준다. 단순 챗봇은 시스템 프롬프트→사용자 입력→응답의 단순한 흐름으로 동작한다.

복잡한 에이전트는 여기에 도구 사용과 장기 기억이 더해진다. 모델은 ‘웹 검색·터미널·파이썬 실행’ 같은 사용 가능한 도구 목록과 사용자 정보를 텍스트로 전달받고, 필요하면 도구 호출 텍스트를 출력한다. 그러면 모델을 감싼 서버(하니스)가 그 출력을 가로채 실제로 검색을 실행하고, 잘린 결과를 다시 모델에 넣어 최종 답을 만들게 한다. 이 모든 과정은 사용자에게는 보이지 않는다.

주요 인사이트

에이전트 설계의 핵심은 ‘컨텍스트 윈도우’ 관리다. 모델은 컨텍스트 윈도우 안의 내용만 인식하므로, 가장 중요한 정보를 골라 넣고 과부하를 피해야 한다.
에이전트 하니스는 외부 문서·요약·메모 파일을 만들고, 무엇을 컨텍스트에 넣을지 판단하는 ‘외부 기억’ 역할을 한다.
도구는 JSON 형식 파일로 ‘web search·fetch URL·run shell’처럼 설명되며, 모델은 이를 읽고 호출 방법을 익혀 능력을 크게 확장한다.
도구 호출 텍스트는 사용자에게 바로 가지 않고 서버가 가로채 실행하는데, 웹페이지 전체가 아니라 앞부분만 잘라 돌려주는 식으로 컨텍스트를 절약한다.
사람이 IDE·Git 같은 도구로 더 강해지듯 에이전트도 도구와 외부 기억을 갖출 때 강해지지만, 한정된 컨텍스트 윈도우 때문에 사람과는 다른 환경 설계가 필요하다.

자주 묻는 질문

LLM은 어떻게 다음 단어를 만들어내나요?

고정된 어휘에서 앞선 입력을 바탕으로 다음에 올 토큰의 확률을 계산해 하나를 고르고, 그 토큰을 포함해 다시 다음 토큰을 예측하는 식으로 한 번에 하나씩 이어 붙입니다.

‘온도(temperature)’ 설정은 왜 필요한가요?

항상 최고 확률의 토큰만 고르면 출력이 경직되기 때문에, 약간의 무작위성을 넣어 높은 확률 토큰들 사이에서 조금씩 벗어나게 하면 더 자연스럽고 쓸모 있는 결과가 나옵니다.

컨텍스트 윈도우가 왜 중요한가요?

모델은 컨텍스트 윈도우 안에 있는 내용만 인식할 수 있는 유한한 작업 기억을 가지므로, 에이전트에서는 가장 중요한 정보를 선별해 넣고 과부하를 피하는 ‘예산 배분’이 성능을 좌우합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗