AI VIDEO BRIEFING

컨텍스트 엔지니어링: 더 많은 컨텍스트가 오히려 AI를 망치는 '컨텍스트 로트'와 4가지 레버

가장 똑똑한 모델도 정보를 더 넣을수록 느려지고 혼란스러워진다. 기록·선택·압축·격리 네 가지 레버와 컨텍스트가 깨지는 네 가지 방식, 그리고 KV 캐시 비용까지 2026년 핵심 기술을 사례와 함께 정리했다.

컨텍스트는 많을수록 좋다? 오히려 AI를 망치는 '컨텍스트 로트'의 과학 영상 대표 이미지

핵심 메시지

  • 가장 똑똑한 모델도 컨텍스트를 더 넣을수록 느려지고 혼란스러워지는 '컨텍스트 로트' 현상이 일어난다.
  • 컨텍스트 윈도는 유한한 RAM과 같아, 목표는 가득 채우는 것이 아니라 고신호 토큰의 최소 집합을 찾는 것이다.
  • 랭체인이 정리한 네 가지 레버(기록·선택·압축·격리)가 메모리·서브에이전트·검색·압축 같은 모든 기법의 토대다.
  • 광고된 컨텍스트 길이는 모델이 실제로 사고할 수 있는 길이가 아니며, KV 캐시 적중률은 운영 비용을 좌우한다.

쉽게 이해하기

영상은 AI에서 가장 기이한 현상으로 시작한다. 지구상 가장 똑똑한 모델에게 더 많은 정보·문서·컨텍스트를 줄수록 오히려 느려지고 혼란스러워지며, 10초 전에 말한 것조차 잊기 시작한다. 연구자들은 이를 '컨텍스트 로트'라 부른다. 발표자는 2026년의 진짜 기술이 영리한 프롬프트 작성이 아니라, 모델이 답하기 전에 보는 모든 것을 설계하는 컨텍스트 엔지니어링이라고 말한다.

이 용어는 2025년 6월 주류로 떠올랐다. 쇼피파이 CEO 토비 뤼트케가 '과제를 풀 수 있게 만드는 모든 컨텍스트를 제공하는 기술'이라며 이 표현을 선호한다고 했고, OpenAI 창립 멤버 안드레이 카파시가 '다음 단계에 꼭 맞는 정보로 컨텍스트 윈도를 채우는 섬세한 예술이자 과학'이라며 힘을 실었으며, 사이먼 윌리슨은 이 용어가 정착할 것이라고 했다. 카파시의 비유에서 LLM은 컴퓨터와 같아 모델은 CPU, 지금 넣는 컨텍스트 윈도는 유한한 RAM이다. 앤트로픽은 컨텍스트를 한계 효용이 감소하는 유한 자원으로 다뤄야 한다고 보며, 목표는 윈도를 가득 채우는 것이 아니라 좋은 답을 끌어낼 고신호 토큰의 최소 집합을 찾는 것이라고 표현한다.

랭체인은 이를 네 가지 레버로 정리한다. 압축은 한계에 가까운 대화를 요약해 새로 시작하는 것으로, 클로드 코드는 약 95%가 차면 자동 압축한다. 앤트로픽 데모에서는 오래된 도구 호출 결과만 비워도 최대 컨텍스트가 33만 5천 토큰에서 17만 3천 토큰으로 49% 줄었다. 격리는 작업을 여러 에이전트로 나눠 각자 깨끗한 윈도를 갖게 하는 것으로, 앤트로픽의 멀티에이전트 연구 시스템은 단일 에이전트 대비 90.2% 더 나은 성과를 냈다. 다만 데빈을 만든 코그니션은 에이전트들이 서로의 컨텍스트를 못 보면 결정이 충돌한다고 반박한다. 규칙은 독립적이고 읽기 위주 작업은 병렬 서브에이전트가, 하나의 산출물에 함께 쓰는 작업은 단일 스레드가 낫다는 것이다.

기록은 윈도 밖에 메모리를 두는 것이다. 앤트로픽은 이를 구조화된 메모하기라 부르며, 컨텍스트가 지워진 뒤에도 클로드 에이전트가 포켓몬 플레이에서 자신의 메모를 읽고 몇 시간 전 시작한 작업을 이어갔다. 클로드 코드의 claude.md 파일이 그 단순한 형태이고, 마누스는 파일 시스템 전체를 컨텍스트로 쓴다. 선택은 수백만 토큰 중 무엇을 윈도에 넣을지의 문제로, 모든 것을 미리 적재하는 RAG 대신 파일 경로·링크 같은 가벼운 참조만 두고 필요할 때 실제 데이터를 불러오는 적시 검색이 부상했다. 다만 RAG가 죽은 것은 아니며 2026년의 최첨단은 검색으로 자료를 찾고 모델이 그 위에서 추론하게 하는 하이브리드다.

컨텍스트가 깨지는 방식도 분류된다. 드루 브로이닉이 정리한 네 가지는 오염(환각이 컨텍스트에 끼어 반복 참조됨)·산만(컨텍스트가 너무 길어 학습 내용을 잊음)·혼란(무관한 잡음이 품질을 떨어뜨림)·충돌(새 정보가 기존 정보와 모순됨)이다. 스탠퍼드의 'Lost in the Middle' 연구는 모델이 컨텍스트의 처음과 끝은 잘 쓰지만 가운데는 놓친다는 점을, NoLiMa 벤치마크는 GPT-4o가 짧은 길이에서 99% 정확도였다가 3만 2천 토큰에서 70% 아래로 떨어지고 13개 모델 중 11개가 점수의 절반 아래로 추락함을 보였다. 즉 광고된 컨텍스트 길이는 실제로 사고할 수 있는 길이가 아니다.

운영 비용 측면에서는 KV 캐시가 핵심이다. 프롬프트의 시작 부분을 그대로 재사용하면 모델이 그 계산을 캐시할 수 있어, 캐시된 토큰은 새 토큰보다 약 10배 저렴하다(클라우드 기준 100만 토큰당 3달러 대 30센트). 에이전트는 입력 대 출력 비율이 약 100대 1로 읽기 위주이므로 캐시 적중률이 가장 중요한 지표다. 컨텍스트 맨 앞의 타임스탬프 하나만 바뀌어도 이후 전체 캐시가 무효화되어 비용이 폭증한다. 한계도 분명하다. 어텐션은 제곱으로 늘어 컨텍스트를 두 배로 하면 연산은 네 배가 되고, 단계마다 95% 신뢰도라도 100단계 작업의 성공률은 1% 미만으로 떨어진다. 2026년 윈도는 클로드·GPT·제미나이가 약 100만 토큰, 라마 4 스카우트는 1천만, 매직닷데브는 1억 토큰을 시연했지만 광고는 실제와 다르며, 앤트로픽 테스트에서 메모리 기능이 성능을 39% 끌어올렸듯 무엇을 넣을지 큐레이션하는 일이 여전히 전부다.

주요 인사이트

  • 컨텍스트 윈도는 무한 저장고가 아니라 유한한 RAM이므로, 채우기보다 고신호 토큰의 최소 집합을 고르는 것이 관건이다.
  • 오래된 도구 호출 결과 같은 노이즈를 비우는 단순한 조치만으로도 최대 컨텍스트를 절반 가까이 줄일 수 있다.
  • 멀티에이전트 격리는 만능이 아니라 메스다 — 독립적·읽기 위주 작업엔 유리하나 공유 상태를 함께 쓰는 작업엔 단일 스레드가 낫다.
  • 광고된 토큰 길이와 모델이 실제로 추론할 수 있는 길이는 다르며, NoLiMa·Lost in the Middle이 이를 실증한다.
  • 에이전트는 읽기 위주라 KV 캐시 적중률이 비용을 좌우하므로 컨텍스트 앞부분을 안정적으로 유지해야 한다.

자주 묻는 질문

'컨텍스트 로트'란 무엇인가?

모델에 정보·문서·컨텍스트를 더 많이 넣을수록 오히려 느려지고 혼란스러워지며 직전에 말한 내용까지 잊는 현상이다. 컨텍스트가 길어질수록 품질이 떨어지는 이 문제 때문에 무엇을 넣을지 설계하는 컨텍스트 엔지니어링이 중요해졌다.

컨텍스트 엔지니어링의 네 가지 레버는 무엇인가?

랭체인이 정리한 기록(윈도 밖 메모리 저장)·선택(적시에 알맞은 정보만 가져오기)·압축(필요한 토큰만 남기기)·격리(작업을 여러 에이전트로 나눠 각자 깨끗한 윈도 유지)다. 메모리·서브에이전트·검색·압축 같은 고급 기법은 모두 이 네 레버 중 하나다.

컨텍스트 윈도가 100만 토큰이면 길이 걱정은 안 해도 되나?

아니다. NoLiMa 벤치마크에서 GPT-4o는 짧은 길이에서 99% 정확도였지만 3만 2천 토큰에서 70% 아래로 떨어졌고 13개 모델 중 11개가 점수의 절반 아래로 추락했다. 광고된 컨텍스트 길이는 모델이 실제로 사고할 수 있는 길이가 아니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식