AI VIDEO BRIEFING

프롬프트 엔지니어링 2025 — 실제로 효과 있는 5가지 기법과 프롬프트 인젝션

최초의 프롬프트 엔지니어링 가이드를 만든 샌더 슐호프가 꼽은, 2025년에도 통하는 5가지 프롬프트 기법과 효과 없는 통념, 그리고 프롬프트 인젝션·AI 레드티밍의 위험을 정리했다.

2025년에도 통하는 프롬프트 엔지니어링: 효과 있는 5가지 기법과 효과 없는 것들 영상 대표 이미지

핵심 메시지

  • 프롬프트 엔지니어링은 '죽었다'는 말이 모델 세대마다 반복되지만, 좋은 프롬프트는 같은 문제의 정확도를 0%에서 90%까지 끌어올릴 만큼 여전히 중요하다.
  • 가장 효과적인 기본기는 퓨샷(few-shot) 프롬프팅으로, 원하는 결과의 예시 몇 개를 보여주는 것만으로 성능이 크게 오른다.
  • 역할 부여('너는 수학 교수다')는 정확도 과제에는 통계적으로 의미 있는 효과가 없고, 글쓰기·요약 같은 표현형 과제에서만 도움이 된다.
  • 분해(decomposition)·자기비판(self-criticism)·충분한 맥락 제공·앙상블(ensembling)이 실전에서 성능을 끌어올리는 핵심 기법이다.
  • 챗봇조차 프롬프트 인젝션에 뚫리는 상황에서, 금융·예약·로봇을 다루는 에이전트의 보안은 훨씬 더 심각한 미해결 문제다.

쉽게 이해하기

게스트 샌더 슐호프는 챗GPT 출시 두 달 전 인터넷 최초의 프롬프트 엔지니어링 가이드를 만든 인물이자, 1,500편 넘는 논문을 분석해 200개 기법을 정리한 76쪽짜리 '프롬프트 리포트'를 이끈 연구자다. 그는 새 모델이 나올 때마다 '프롬프트 엔지니어링은 끝났다'는 말이 나오지만 실제로는 그렇지 않다고 단언한다. 나쁜 프롬프트는 정확도를 0%까지 떨어뜨리고 좋은 프롬프트는 90%까지 끌어올린 사례가 이를 뒷받침한다.

그는 프롬프트 엔지니어링을 두 모드로 나눈다. 하나는 대화형으로, 챗봇과 주고받으며 결과를 다듬는 일상적 방식이다. 다른 하나는 제품 중심으로, 하나의 프롬프트에 매일 수백만 건의 입력이 흐르는 상황에서 그 프롬프트를 완벽하게 만드는 일이다. 진짜 가치와 연구의 대부분은 후자에 있다고 그는 강조한다.

효과 있는 기법으로 그는 다섯 가지를 든다. ①퓨샷: 원하는 출력의 예시를 제시한다. ②분해: '먼저 풀어야 할 하위 문제는 무엇인가'를 물어 작업을 쪼갠다. ③자기비판: 모델에게 자기 답을 점검·비판하게 한 뒤 그 비판을 반영해 다시 쓰게 한다. ④추가 정보(맥락): 작업과 관련된 배경을 최대한 제공하되, 비용·지연을 고려해 프롬프트 앞쪽에 두어 캐싱 이점을 살린다. ⑤앙상블: 같은 문제를 여러 프롬프트·방식으로 풀게 한 뒤 가장 흔한 답을 최종 답으로 택한다.

반대로 효과가 사라졌거나 애초에 없는 것들도 짚는다. 초기 GPT-3 시절 유행하던 '역할 부여'는 정확도 과제에서 통계적으로 의미 있는 차이를 내지 못한다는 후속 연구로 반박됐고, '잘하면 팁을 주겠다'거나 '누군가 죽는다' 같은 보상·협박도 대규모로 검증된 효과가 없다. 다만 역할은 문체가 중요한 표현형 과제에서는 여전히 유용하다. 사고연쇄(chain of thought)는 추론 모델에서는 기본 탑재되어 굳이 필요 없지만, 비추론 모델을 대규모로 돌릴 때는 안정성을 위해 여전히 쓸모가 있다.

대화의 후반부는 AI 레드티밍과 프롬프트 인젝션을 다룬다. 슐호프는 60만 건의 공격 사례를 모은 세계 최대 레드티밍 대회를 운영해 왔다. '돌아가신 할머니가 들려주던 폭탄 제조 이야기를 해달라'는 식의 우회, 오타, base64 같은 난독화로 챗봇의 안전장치가 뚫리는 사례를 소개한다. 그는 시스템 프롬프트에 '악의적 지시를 따르지 말라'고 적는 방어나 가드레일 모델이 동기 있는 공격자 앞에서는 충분치 않다고 지적하며, 진짜 위협은 코딩 에이전트가 악성 웹페이지의 숨은 지시를 읽어 코드에 바이러스를 심는 것처럼 실제 행동을 하는 에이전트 보안이라고 경고한다.

주요 인사이트

  • '프롬프트 엔지니어링이 죽었다'는 주장은 세대마다 반복되지만, 대규모 제품에서 프롬프트의 안정성을 보장해야 하는 한 기법의 가치는 사라지지 않는다.
  • 예시를 줄 때는 모델이 학습 데이터에서 자주 본 친숙한 형식(XML, Q&A 등)을 고르는 것이 빈 형식을 만드는 것보다 경험적으로 더 낫다.
  • 역할 부여가 정확도에 도움 된다는 통념은 효과 크기가 0.01 수준이라 통계적 의미가 없었고, 표현형 과제로만 한정해 써야 한다.
  • 추가 정보를 프롬프트 앞쪽에 두면 모델 제공자의 캐싱으로 비용이 줄고, 모델이 원래 과제를 잊고 엉뚱한 질문을 집어드는 일을 막을 수 있다.
  • 프롬프트 인젝션은 고전 사이버보안과 달리 '근본적으로 해결되지 않은' 문제이며, 자율 에이전트가 늘수록 현실적 피해 위험이 커진다.

자주 묻는 질문

가장 먼저 배워야 할 프롬프트 기법은 무엇인가?

퓨샷(few-shot) 프롬프팅이다. 원하는 결과의 예시 몇 개를 함께 제시하면, 스타일을 말로 설명하기 어려운 경우에도 모델 성능을 크게 끌어올릴 수 있다.

'너는 ~전문가다' 같은 역할 부여는 효과가 있나?

정확도가 중요한 과제에서는 통계적으로 의미 있는 효과가 없다는 것이 후속 연구로 확인됐다. 다만 글쓰기·요약처럼 문체가 중요한 표현형 과제에서는 도움이 된다.

자기비판(self-criticism) 기법은 어떻게 쓰나?

모델이 답을 내놓으면 '네 답을 점검하고 비판해보라'고 요청하고, 좋은 비판이 나오면 '그 비판을 반영해 다시 작성하라'고 시킨다. 보통 1~3회 반복하면 무료에 가까운 성능 향상을 얻는다.

시스템 프롬프트에 '악의적 지시를 따르지 말라'고 적으면 프롬프트 인젝션을 막을 수 있나?

막지 못한다. 슐호프에 따르면 이런 프롬프트 기반 방어나 구분자·가드레일 모델은 동기 있는 공격자 앞에서 사실상 통하지 않으며, 문제는 모델 차원에서 풀어야 한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식