AI VIDEO BRIEFING

컨텍스트 엔지니어링이란: AI 에이전트 성능을 좌우하는 4가지 전략

컨텍스트 엔지니어링은 매 단계 컨텍스트 창에 꼭 필요한 정보만 채우는 기술이다. 랭체인이 정리한 쓰기·선택·압축·격리 네 전략과 랭그래프 적용법을 풀어본다.

에이전트를 위한 컨텍스트 엔지니어링: 쓰기·선택·압축·격리의 네 가지 전략 영상 대표 이미지

핵심 메시지

  • 컨텍스트 엔지니어링은 에이전트의 매 단계에서 컨텍스트 창에 '꼭 필요한 정보만' 채워 넣는 기술이자 과학이다.
  • 에이전트는 작업이 길고 도구 호출이 누적돼 컨텍스트가 계속 불어나므로, 컨텍스트 관리가 특히 중요하다.
  • 전략은 컨텍스트 쓰기(외부 저장), 선택(필요한 것만 끌어오기), 압축(핵심 토큰만 남기기), 격리(나눠서 다루기) 네 가지로 묶을 수 있다.
  • 도구가 약 30개를 넘으면 성능이 떨어지고 100개에 이르면 실패하므로, 도구 설명에도 검색(RAG)을 적용해 관련 도구만 끌어오는 것이 좋다.
  • 랭그래프는 상태 객체·장기 메모리·요약 유틸리티·멀티에이전트 구현으로 네 전략을 모두 지원한다.

쉽게 이해하기

랭체인의 랜스는 최근 자주 쓰이는 '컨텍스트 엔지니어링'이라는 용어를 정리한다. 에이전트는 지시문, 외부 지식, 도구 호출의 피드백 같은 다양한 컨텍스트를 필요로 하는데, 컨텍스트 엔지니어링은 매 단계 컨텍스트 창에 적절한 정보를 채우는 일이다. 카파시는 LLM을 CPU에, 컨텍스트 창을 RAM(작업 메모리)에 비유했다. 운영체제가 RAM에 무엇을 올릴지 선별하듯, 어떤 정보를 컨텍스트에 넣을지 결정하는 규율이 컨텍스트 엔지니어링이다.

에이전트가 특히 까다로운 이유는 작업이 길고 복잡하며 도구를 호출하기 때문이다. 턴이 거듭될수록 도구 피드백이 컨텍스트에 쌓여 토큰이 계속 늘어난다. 컨텍스트가 길어지면 정보 오염, 주의 분산, 충돌 같은 실패가 생기기 쉽다. 코그니션은 컨텍스트 엔지니어링이 AI 에이전트를 만드는 엔지니어의 '1순위 업무'라고까지 말한다.

첫 번째 전략은 '쓰기'다. 사람이 메모를 남기듯 에이전트도 스크래치패드에 작업 중 정보를 저장하고, 세션을 넘어 기억해야 할 것은 메모리에 남긴다. 앤트로픽의 멀티에이전트 리서처는 리드 에이전트가 계획을 메모리에 저장해 200K 토큰 한계를 넘겨도 계획을 잃지 않는다. 두 번째 '선택'은 스크래치패드·메모리·도구·지식을 필요할 때만 끌어오는 것으로, 의미 유사도 검색이나 그래프 DB로 많은 메모리 중 관련된 것만 가져온다.

세 번째 '압축'은 요약과 트리밍으로 꼭 필요한 토큰만 남기는 일이다. 클로드 코드가 컨텍스트 창의 95%(200K)에 이르면 자동 압축을 호출하는 것이 대표적이다. 네 번째 '격리'는 컨텍스트를 나누는 것으로, 멀티에이전트가 각자의 컨텍스트 창을 갖거나, 샌드박스에서 코드 실행 결과만 LLM에 돌려주거나, 상태 객체의 필드로 정보를 분리한다. 랭그래프는 상태 객체(스크래치패드), 일급 장기 메모리, 요약·트리밍 유틸리티, 슈퍼바이저·스웜 멀티에이전트로 이 네 전략을 모두 지원한다.

주요 인사이트

  • 컨텍스트는 '많이 넣을수록' 좋은 것이 아니다. 길어질수록 모델이 충돌·환각에 휘둘릴 여지가 커지므로, 무엇을 넣고 뺄지 선별하는 일이 곧 성능 관리다.
  • 스크래치패드(세션 내)와 메모리(세션 간)를 구분하면, 단기 작업 메모와 장기 학습 정보를 각각에 맞는 방식으로 다룰 수 있다.
  • 도구도 많다고 좋은 게 아니다. 약 30개를 넘기면 성능이 떨어지므로, 도구 설명에 검색을 적용해 작업에 맞는 도구만 끌어오는 방식이 효과적이다.
  • 컨텍스트 엔지니어링 전에 토큰 추적(관측 가능성)과 평가 체계를 갖춰야, 압축 같은 최적화가 오히려 성능을 떨어뜨리지 않았는지 검증할 수 있다.

자주 묻는 질문

컨텍스트 엔지니어링이 무엇인가요?

에이전트의 매 단계에서 컨텍스트 창에 꼭 필요한 정보만 채워 넣는 기술입니다. LLM을 CPU, 컨텍스트 창을 RAM에 비유하면, 무엇을 메모리에 올릴지 선별하는 일에 해당합니다.

네 가지 전략은 무엇인가요?

컨텍스트를 외부에 저장하는 '쓰기', 필요한 것만 끌어오는 '선택', 핵심 토큰만 남기는 '압축', 나눠서 다루는 '격리'입니다.

도구가 많으면 왜 문제가 되나요?

한 연구에 따르면 도구가 약 30개를 넘으면 성능이 저하되고 100개 부근에서는 거의 실패합니다. 그래서 도구 설명을 임베딩해 의미 유사도로 관련 도구만 끌어오는 방식이 권장됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식