AI VIDEO BRIEFING

프롬프트 엔지니어링 본질과 실전 노하우: 앤트로픽 연구진 라운드테이블

앤트로픽 프롬프트 엔지니어·연구자들이 좋은 프롬프트의 조건, 역할 부여의 한계, 사고의 연쇄, 그리고 프롬프트 엔지니어링의 미래를 토론했다.

출처: Anthropic2024년 9월 5일AI 보조 요약

앤트로픽 연구진이 말하는 프롬프트 엔지니어링의 본질: “당신의 머릿속을 외부로 꺼내라” 영상 대표 이미지

핵심 메시지

프롬프트 엔지니어링의 핵심은 모델에게서 최선을 끌어내는 명확한 의사소통이며, ‘엔지니어링’이라는 이름은 끊임없는 시행착오와 반복에서 나온다.
좋은 프롬프트 엔지니어는 전형적인 경우가 아니라 빈 입력·예외 같은 엣지 케이스를 떠올리고, 모델의 출력을 꼼꼼히 읽는다.
역할 부여(“너는 교사다”)는 종종 진짜 과제를 비슷한 다른 과제로 대체해 버리므로, 모델이 실제로 놓인 맥락을 그대로 정확히 설명하는 편이 낫다.
사고의 연쇄는 단순한 계산 공간이 아니다. 추론을 이야기나 무의미한 토큰으로 바꾸면 성능이 떨어지는 것으로 보아 실제로 결과에 기여한다.
미래의 프롬프트는 모델이 사용자를 인터뷰해 필요한 정보를 끌어내는 방향으로 바뀔 수 있으며, 결국 자기 생각을 명료하게 외부로 꺼내는 일이 본질이다.

쉽게 이해하기

앤트로픽의 알렉스, 데이비드 허시, 어맨다 애스컬, 잭 위튼이 연구·소비자·엔터프라이즈 등 서로 다른 관점에서 프롬프트 엔지니어링을 토론한다. 이들은 프롬프트 엔지니어링을 “모델에게서 최선을 끌어내 평소라면 못 했을 일을 해내게 하는, 본질적으로 명확한 의사소통”으로 정의한다. ‘엔지니어링’이라는 말이 붙은 이유로는, 대화를 언제든 처음으로 되돌릴 수 있는 ‘재시작 버튼’ 덕분에 서로 간섭 없이 여러 시도를 실험하고 설계할 수 있다는 점을 꼽는다.

좋은 프롬프트 엔지니어의 조건으로는 명확한 소통과 반복 능력이 거론된다. 어맨다는 15분 동안 수백 개의 프롬프트를 주고받으며 무엇이 잘못 해석됐는지 찾아 고친다고 말한다. 또한 전형적인 입력만 떠올리지 말고, 이름이 G로 시작하는 행이 하나도 없는 데이터나 빈 문자열처럼 예외적인 경우를 일부러 시험하라고 강조한다. 데이비드는 사용자가 실제로는 오타투성이에 문장부호도 없이 입력한다는 점을 고려해야 한다고 덧붙인다. 잭은 머신러닝에서 “데이터를 보라”는 격언처럼 프롬프트에서는 “모델의 출력을 보라”가 핵심이라고 말한다.

역할 부여 기법에 대해서는 의견이 갈린다. 어맨다는 모델에게 거짓말하지 않고 자신의 이름과 상황을 솔직히 알려주는 편을 택한다. 모델은 이미 LLM 평가가 무엇인지 알고 있으므로, “학생 퀴즈를 낸다”고 둘러대기보다 “언어 모델 평가에 가까운 질문을 만들라”고 실제 과제를 그대로 요청하는 것이 낫다는 것이다. 데이비드 역시 비슷한 유사 과제로 대체하기보다 “너는 이 제품 안의 지원 채팅창”이라는 식으로 정확한 맥락을 알려주라고 조언한다. 잭은 차트를 “고등학교 과제라면 몇 점일지”로 평가하게 한 사례처럼, 거짓이 아닌 비유는 도움이 될 수 있다고 말한다.

효과적인 비유로는 ‘임시직 직원’이 등장한다. 업계는 잘 알지만 우리 회사는 모르는 유능한 사람이 막 도착했다고 상상하고, 그에게 설명하듯 과제를 적으라는 것이다. 예외 상황을 위해 “정말 확신이 안 서면 태그 안에 unsure라고 출력하라”처럼 ‘빠져나갈 길’을 주면, 이상한 입력을 걸러내고 데이터 품질도 좋아진다. 사고의 연쇄에 대해서는, 추론을 그럴듯한 이야기나 “음·아” 같은 무의미한 토큰으로 바꾸면 성능이 떨어지는 것으로 보아 단순한 계산 공간이 아니라 실제로 결과에 기여한다고 본다.

프롬프트 엔지니어링의 역사와 미래도 다룬다. 수학의 “단계별로 생각하라”처럼 좋은 기법은 결국 모델에 학습돼 더 이상 따로 쓸 필요가 없어지므로, 트릭은 수명이 짧다. 시간이 흐를수록 연구진은 모델을 더 신뢰해 더 많은 맥락을 주고, 기법을 설명하는 대신 관련 논문을 통째로 건넨다. 미래에는 모델이 사용자를 인터뷰하며 필요한 정보를 끌어내는, 디자이너가 고객에게 질문하는 듯한 관계로 바뀔 수 있다. 어맨다는 철학 글쓰기에서 배운 “교양 있는 일반인도 이해하게 쓰라”는 훈련을 들며, 머릿속 생각을 충분히 분석해 그대로 외부로 꺼내는 것이 프롬프트의 핵심이라고 정리한다.

주요 인사이트

프롬프트의 어려움은 글솜씨가 아니라, 자신이 당연하게 여기는 전제를 모두 벗겨 내고 과제에 필요한 정보를 빠짐없이 명료하게 전달하는 데 있다.
모델이 막힐 때 무작정 ‘더 나은 프롬프트’를 갈아 넣기보다, 모델이 정말 못 하는 과제인지 가늠해 시간을 낭비하지 않는 판단도 중요하다. 데이비드의 포켓몬 실험이 그 예다.
연구용 프롬프트는 다양성을 위해 예시를 적게 쓰거나 실제 데이터와 다른 예시를 쓰는 반면, 엔터프라이즈 프롬프트는 일관성과 신뢰성을 위해 예시를 많이 넣는다.
오타와 문법은 RLHF 모델에선 대체로 문제되지 않지만, 사전학습 모델은 오타를 이어받는 성질이 있어 오히려 현실적인 테스트 입력을 만드는 데 쓸 수 있다.
미래의 프롬프트 엔지니어링은 모델을 가르치는 일에서, 더 똑똑한 상대에게 자신을 명료하게 내보이는 ‘자기 성찰과 인터뷰’로 무게중심이 옮겨갈 수 있다.

자주 묻는 질문

왜 ‘프롬프트 엔지니어링’이라고 부르나요?

대화를 언제든 처음으로 되돌릴 수 있는 ‘재시작 버튼’ 덕분에, 서로 간섭 없이 여러 시도를 독립적으로 실험하고 설계할 수 있기 때문입니다. 이 실험과 반복의 과정이 ‘엔지니어링’에 해당한다고 설명합니다.

모델에게 역할을 부여하는 기법은 효과적인가요?

의견이 갈립니다. 발표자들은 역할 부여가 진짜 과제를 비슷한 다른 과제로 대체해 정확도를 떨어뜨릴 수 있다고 보고, 모델이 실제로 놓인 맥락을 그대로 정확히 설명하기를 권합니다. 다만 거짓이 아닌 비유는 도움이 될 수 있다고 봅니다.

사고의 연쇄(Chain of Thought)는 진짜 추론인가요, 단순 계산 공간인가요?

추론을 그럴듯한 이야기나 “음·아” 같은 무의미한 토큰으로 바꾸면 성능이 떨어지는 것으로 보아, 단순히 더 많은 계산을 위한 공간이 아니라 결과에 실제로 기여한다고 봅니다. 다만 그것을 ‘추론’이라 부를지는 별개의 문제로 남겨 둡니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗