AI VIDEO BRIEFING
AI 에이전트 경제와 안전 - 구글 딥마인드가 말하는 위임·신뢰·에이전트 함정
구글 딥마인드 연구자가 설명하는 AI 에이전트의 본질과, 수백만 에이전트가 거래·위임·협상하는 ‘에이전트 경제’의 가능성, 그리고 프롬프트 주입·인지 단일문화 같은 안전 과제를 정리했다.

핵심 메시지
쉽게 이해하기
구글 딥마인드 팟캐스트에 출연한 선임 연구과학자 네나드 토마셰브는, 불과 얼마 전까지 AI 비서란 곧 거대 언어모델을 뜻했다고 짚는다. 사용자가 질문하면 답을 주지만 사용자를 대신해 일을 처리하지는 못했다. 언어모델은 프롬프트에 대한 답을 ‘이어 쓰는’ 반면, 에이전트는 주어진 환경에서 세계의 상태를 관찰하고 행동을 취한다는 것이 개념적 차이다. 다만 오늘날의 에이전트도 내부적으로는 언어모델이 행동을 구성하고, 그 주위를 행동을 실제로 실행시키는 ‘하니스(harness)’가 감싼 구조라고 설명한다.
에이전트의 매력은 자동화다. 사람이 언어모델과 수없이 주고받으며 직접 이끌어야 했던 일을, 에이전트는 계획을 세우고 여러 단계를 스스로 실행해 처리한다. 결혼식이나 파티를 준비할 때 언어모델은 케이터링·장소 목록만 알려주지만, 도구(예: 지메일 접근·발송 권한)를 부여받은 에이전트는 실제로 메일을 보내고 예약을 진행할 수 있다. 그만큼 사용자는 점점 ‘실행자’가 아니라 검토하고 승인하는 ‘의사결정자’ 위치로 이동한다.
현재 에이전트가 가장 잘하는 영역은 코딩이다. 많은 업무가 코드로 정형화될 수 있고, 단위 테스트로 검증(loop 닫기)이 비교적 쉽기 때문이다. 반면 현실 세계 작업은 검증이 간단치 않고 주관적 요소가 끼어든다. 토마셰브는 모든 행동에 실패율이 있으며 작업이 복잡할수록 실패율이 높아진다고 강조한다. 특히 에이전트가 몇 번 잘 해내면 사람이 신뢰를 과하게 키워 검증을 멈추는 ‘자동화 편향’을 경계해야 한다고 말한다.
대화의 핵심은 ‘에이전트 경제’다. 개인 비서 에이전트가 사용자의 선호와 예산을 알고 다른 에이전트와 협상하는 국지적 경제가 생길 수 있다. 콘서트 티켓처럼 경쟁이 치열한 자원은, 설계자가 모든 에이전트에 동일한 예산을 주는 식으로 공정성을 ‘명시적 설계 선택’으로 넣을 수 있다고 본다. 동시에 다수 에이전트가 비슷한 소수의 모델에 기반해 비슷하게 판단하는 ‘인지 단일문화’는 실패가 상관관계를 띠게 만들어, 주식시장의 플래시 크래시 같은 연쇄 붕괴 위험을 키운다.
보안 측면에서는 ‘에이전트 함정’이 부각된다. 악의적 웹페이지가 화면에 보이지 않는 숨은 토큰을 심거나, 사람과 에이전트에게 페이지를 다르게 보여주는 ‘동적 클로킹’으로 프롬프트 주입을 시도할 수 있다. 토마셰브는 단일 해법은 없으며, 자원 인증·에이전트와 모델 단의 방어·의미 있는 사람 통제·최소 권한 부여를 겹겹이 쌓는 ‘심층 방어’가 필요하다고 말한다.
주요 인사이트
- 에이전트와 언어모델의 본질적 차이는 ‘행동 수행’에 있으며, 자율성이 커질수록 사람의 역할은 실행에서 검토·승인으로 옮겨간다.
- 신뢰는 주어지는 동시에 쌓이는 것이라, 에이전트의 평판을 시간에 걸쳐 추적하고 항상 행동을 검증하는 체계가 필요하다.
- 되돌릴 수 있는 작업과 되돌릴 수 없는(돈 지출 등) 작업을 구분해, 비가역적 행동에는 더 큰 주의와 사람 승인을 둬야 한다.
- 여러 모델이 비슷하게 판단하는 인지 단일문화와 담합은 대규모 배포 시 상관된 실패를 낳으므로, 의사결정 다양화와 담합 방지 장치가 과제다.
- 의료 영상처럼 AI가 초인적 성능을 내는 좁은 영역에서는, 불확실할 때 AI가 사람에게 위임하는 ‘AI→사람’ 협업이 최선의 팀이 될 수 있다.
자주 묻는 질문
언어모델과 AI 에이전트의 차이는 무엇인가?
언어모델은 프롬프트에 대한 답을 이어서 생성할 뿐이지만, 에이전트는 환경에서 세계의 상태를 관찰하고 도구를 사용해 실제 행동을 수행한다. 다만 에이전트도 내부적으로는 언어모델이 행동을 구성하고, 그 주위를 실행을 담당하는 하니스가 감싼 형태다.
왜 에이전트에 사람이 계속 개입해야 하나?
모든 행동에는 실패율이 있고 작업이 복잡할수록 실패 가능성이 커지기 때문이다. 또 에이전트가 잘하면 사람이 검증을 멈추는 자동화 편향이 생기기 쉬워, 단순히 루프 안에 있는 것을 넘어 깨어서 적극적으로 검증해야 한다.
‘에이전트 함정’이란 무엇인가?
악의적 웹페이지가 시각적으로 렌더링되지 않는 숨은 토큰을 심거나, 사람과 에이전트에게 페이지를 다르게 보여주는 동적 클로킹으로 에이전트의 목표를 바꾸거나 탈옥(jailbreak)시키는 공격을 말한다. 대응책으로는 자원 인증과 최소 권한 부여 등을 겹겹이 쌓는 심층 방어가 제시된다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗