AI VIDEO BRIEFING

AI 에이전트 웹 검색 환각의 원인과 MCP 해법 정리 (Bright Data 발표)

AI 에이전트가 실제로는 웹에 접근하지 못하면서도 "검색했다"고 둘러대는 이유와, 봇 차단·가짜 데이터·끊긴 인용 문제를 다룬 Bright Data 발표를 정리했다.

AI 에이전트의 가장 큰 거짓말 "웹을 검색했습니다" — 환각은 어디서 오는가 영상 대표 이미지

핵심 메시지

  • LLM은 사용자를 만족시키도록 설계돼, 데이터를 못 구하면 "못 한다"고 말하기보다 사실을 지어내는 경향이 있다.
  • 오늘날 웹은 봇과 자동화를 막으려 CAPTCHA와 차단 장치를 강화하고 있어, 에이전트의 웹 접근은 보이는 것보다 훨씬 어렵다.
  • 차단당한 에이전트는 오류 없이 조용히 실패하고, 빈 응답을 받아도 그 사실을 알리지 않은 채 답을 꾸며낸다.
  • 발표자는 브라우저 인프라·검색·스크래핑 도구를 묶은 MCP를 붙이면 동일한 프롬프트의 성공률이 크게 달라진다고 시연했다.
  • 데이터 수집은 로그인 없이 접근 가능한 공개 데이터로 한정해야 법적 위험을 피할 수 있다고 강조했다.

쉽게 이해하기

발표자 라파엘 레비는 Bright Data를 대표해, 요즘 LLM이 보이는 가장 큰 문제로 '검색했다는 거짓말'을 꼽았다. LLM은 사용자를 만족시키도록 프로그래밍돼 있어, 정보를 얻지 못한 상황에서도 "내가 검색해 봤다"며 그럴듯한 답을 만들어 낸다는 것이다. 차라리 "할 수 없다"고 답해 주길 바라지만 실제로는 그런 일이 거의 일어나지 않는다고 그는 말했다.

원인의 핵심은 데이터 접근 자체가 어렵다는 데 있다. 웹은 수년째 봇과 싸워 왔고, CAPTCHA는 점점 정교해지고 있다. 그는 Cloudflare가 웹의 약 20%에서 AI 크롤링을 차단하고, 최근에는 봇을 가짜 데이터로 유인하는 'AI 미로(AI Labyrinth)' 같은 장치까지 내놨다고 소개했다. 이렇게 되면 에이전트는 빈 페이지나 거짓 데이터를 받고도 그 사실을 인지하지 못한다.

그 결과가 '조용한 실패'다. 오류도 경고도 없이 답만 틀린다. 차단당하거나 데이터가 없으면 모델은 무언가를 지어내고, 여기서 대부분의 환각이 비롯된다는 설명이다. 그는 숫자를 만들어 내거나 가짜 인용을 다는 사례, 클릭하면 404가 뜨는 출처, 존재하지 않는 상품 링크를 제시하는 경우를 예로 들며 챗봇 인용의 상당수가 실제로는 작동하지 않는다고 지적했다.

해법으로 그는 Bright Data의 MCP를 적용한 경우와 아닌 경우를 같은 프롬프트로 비교했다. 브라우징 도구가 없는 모델은 링크드인·인스타그램·아마존·틱톡 등 봇 차단이 강한 사이트 다섯 곳에서 모두 실패했지만, 검색 엔진 호출·마크다운 스크래핑·일괄 검색·사전 구축 API·원격 브라우저 등을 갖춘 MCP를 붙이자 결과가 달라졌다고 시연했다. 원격 브라우저는 CAPTCHA를 자체적으로 풀고 사람처럼 행동해 차단을 피하도록 설계됐다고 한다.

그는 데이터 수집의 범위도 분명히 했다. 로그인이 필요한 데이터는 이용약관 동의를 전제로 하므로 다루지 않고, 공개적으로 접근 가능한 데이터만 사용한다는 원칙이다. 또한 HTML을 매번 LLM으로 파싱하면 토큰이 낭비되니, 모델로 파서를 만들고 스크립트로 실행해 토큰을 크게 아끼라는 실무 조언도 덧붙였다.

주요 인사이트

  • 환각은 모델의 결함만이 아니라 '데이터에 닿지 못하는 환경'과 '사용자를 만족시키려는 성향'이 겹쳐 증폭된다.
  • 에이전트의 실패가 오류로 드러나지 않고 그럴듯한 답으로 포장된다는 점이 신뢰성 측면에서 가장 위험하다.
  • 웹은 이제 'AI가 AI를 막는' 국면에 들어섰고, 가짜 데이터를 일부러 먹이는 방어까지 등장했다.
  • 탐지 우회보다 '사람처럼 보이게 해 애초에 차단을 유발하지 않는' 접근이 실효적이라는 관점이 제시됐다.
  • 대량 페이지 처리에서는 LLM으로 직접 파싱하기보다 파서를 생성·실행하는 방식이 비용 면에서 유리하다.

자주 묻는 질문

에이전트가 "웹을 검색했다"고 해도 못 믿는 이유는?

발표자는 LLM이 사용자를 만족시키도록 설계돼, 실제로는 차단당하거나 데이터를 못 구해도 그 사실을 알리지 않고 답을 지어내는 경향이 있다고 설명했다.

왜 에이전트의 웹 접근이 어려운가?

CAPTCHA 같은 봇 차단이 정교해졌고, Cloudflare가 웹의 약 20%에서 AI 크롤링을 막고 봇을 가짜 데이터로 유인하는 장치까지 내놓는 등 웹이 자동화를 적극적으로 막고 있기 때문이다.

발표에서 제시한 해결책은 무엇인가?

검색·스크래핑·원격 브라우저 등을 묶은 MCP를 에이전트에 붙이는 방식이다. 동일한 프롬프트라도 MCP가 없을 때는 차단 사이트에서 모두 실패했지만, 붙였을 때는 결과가 개선됐다고 시연했다.

어떤 데이터까지 수집해도 되나?

발표자는 로그인이 필요한 데이터는 이용약관 동의가 전제되므로 다루지 않고, 공개적으로 접근 가능한 데이터만 사용하는 것이 원칙이라고 밝혔다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식