AI VIDEO BRIEFING
컨텍스트 엔지니어링이란? RAG·에이전트형 RAG·그래프 RAG로 AI 성능 높이는 4대 기둥
최신 AI가 자신 있게 틀리는 이유는 추론력 부족이 아니라 적절한 컨텍스트의 부재다. IBM Technology가 설명하는 컨텍스트 엔지니어링 4대 기둥과 RAG·에이전트형 RAG·그래프 RAG·압축 기법을 정리했다.

핵심 메시지
쉽게 이해하기
발표자는 AI가 원하는 대로 작동하지 못하게 막는 가장 큰 요인이 모델 자체가 아닐 수 있다고 짚는다. 프런티어 코딩 모델로 그동안 미뤄둔 앱들을 빠르게 만들어낼 만큼 모델의 원초적 지능은 충분하지만, 그럼에도 모델은 종종 '자신 있게' 틀린다. 이는 기본 추론의 실패라기보다 무엇이 관련 정보인지를 모르는 문제, 곧 컨텍스트의 문제라는 것이다.
여기서 컨텍스트 엔지니어링이라는 개념이 등장한다. AI 시스템이 올바른 데이터를 발견하고, 그 의미를 이해하며, 환경의 제약과 거버넌스 안에서 실시간으로 정확히 적용하는 능력을 가리킨다. 예컨대 내일 있을 중요한 고객 미팅 준비 문서를 요청하면, 컨텍스트가 없는 모델은 형식만 그럴듯한 일반적 템플릿을 내놓는다. 반면 컨텍스트 엔지니어링이 잘된 시스템은 해당 고객의 최근 지원 티켓과 갱신이 임박한 거래 이력을 끌어오되, 내 역할이 접근 권한이 없는 내부 가격 논의는 거버넌스에 따라 제외한다.
문제는 모델이 필요로 하는 데이터가 한곳에 있지 않다는 점이다. 데이터는 데이터베이스·문서 저장소·API·SaaS·클라우드·온프레미스에 흩어져 있고, 정형과 비정형이 섞여 있으며, 시시각각 변하고, 누가 어떤 역할이냐에 따라 접근이 제한된다. 따라서 올바른 컨텍스트를 올바른 시점에 올바른 권한으로 전달하는 일은 본질적으로 인프라 문제다.
발표자는 좋은 컨텍스트 엔지니어링 시스템이 갖춰야 할 네 가지를 제시한다. ① 연결된 접근: 데이터를 한곳에 복사하는 대신 있는 자리에서 질의하는 제로카피 페더레이션으로 항상 최신 상태와 기존 접근 통제를 유지한다. ② 지식 계층: 엔티티 해소, 관계·계층 매핑, 의사결정 흐름과 조직 지식을 더해 원시 데이터에 의미를 부여한다. ③ 정밀 검색: 더 길게가 아니라 의도·역할·시간·정책으로 걸러 정말 필요한 것만 전달한다. ④ 런타임 거버넌스: 검색 시점과 응답 시점 모두에서 '이 에이전트가 이 데이터를 조회해도 되는가, 이 결과를 포함해도 되는가'를 실시간으로 강제한다.
정밀 검색의 구체적 기법으로는 문서를 잘라 벡터로 임베딩한 뒤 유사도 검색을 하는 기본 RAG, 1차로 받아본 뒤 부족하면 다시 요청하는 반복형 에이전트형 RAG, 그래프 구조로 '이 고객과 연결된 엔티티와 관련 문서'를 탐색하는 그래프 RAG, 그리고 노이즈를 줄이기 위해 긴 문서를 요약·우선순위화하는 컨텍스트 압축이 소개된다. 결론적으로 많은 경우 모델의 지능과 추론은 더 이상 병목이 아니며, 모델은 접근할 수 있는 컨텍스트만큼만 유능하다.
주요 인사이트
- 모델을 더 키우기보다 모델에게 닿는 컨텍스트의 질을 높이는 것이 실질적 성능 향상의 지름길이다.
- 정밀 검색의 원칙은 '더 많이'가 아니라 '더 정확히'이며, 의도·역할·시간·정책으로 거른 컨텍스트가 긴 컨텍스트보다 낫다.
- 거버넌스를 검색·응답 시점에 실시간으로 강제해야 권한 밖 데이터가 답변에 새어 들어가는 것을 막을 수 있다.
- 그래프 RAG는 엔티티 간 관계로 범위를 좁히고 벡터 검색이 그 안의 세부를 채우는 식으로 정밀도와 구조를 동시에 얻는다.
자주 묻는 질문
컨텍스트 엔지니어링이란 무엇인가?
AI 시스템이 올바른 데이터를 실시간으로 발견하고 그 의미를 이해하며, 환경의 제약과 거버넌스 안에서 정확히 적용하도록 설계·구축하는 일이다. 즉 런타임에 모델에 적절한 컨텍스트를 전달하는 시스템을 만드는 실무를 말한다.
기본 RAG와 그래프 RAG는 어떻게 다른가?
기본 RAG는 문서를 벡터로 임베딩해 질의와 의미적으로 유사한 문서를 찾는다. 그래프 RAG는 그래프 구조로 '이 고객과 연결된 엔티티는 무엇이고 어떤 문서가 그 엔티티와 관련되는가'를 탐색해 더 정밀하고 구조적인 컨텍스트를 제공하며, 벡터 검색이 그 범위 안의 세부를 채운다.
컨텍스트 윈도가 큰 모델이면 압축이 필요 없나?
그렇지 않다. 추론 시점에 모델이 처리할 수 있는 양에는 한계가 있고, 윈도가 크더라도 노이즈가 많을수록 결과가 나빠진다. 그래서 시스템은 긴 문서를 요약하고 작업에 가장 관련 있는 것을 우선순위화해 신호를 키우고 노이즈를 줄인다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗