AI VIDEO BRIEFING

스탠퍼드 CS230 강의: 프롬프트·RAG·에이전트 워크플로 총정리

스탠퍼드 CS230 8강 “Beyond LLM”을 정리했다. 기본 모델의 한계부터 프롬프트 기법, 파인튜닝 회피, RAG, 에이전트 워크플로와 MCP·평가까지 실무 관점으로 풀어낸다.

출처: Stanford Online2025년 11월 21일AI 보조 요약

스탠퍼드 CS230이 정리한 “LLM 그 너머”: 프롬프트·RAG·에이전트로 모델 성능 끌어올리기 영상 대표 이미지

핵심 메시지

바닐라 사전학습 LLM에는 도메인 지식 부족, 최신성 결여, 제어 어려움, 좁은 작업 성능 미달, 출처 부재, 제한된 컨텍스트 윈도우 같은 한계가 있다.
LLM 성능을 높이는 길은 두 축이다. 더 좋은 기반 모델로 바꾸거나(수평축), 같은 모델을 프롬프트·RAG·에이전트로 더 잘 활용하는 것(수직축)이며, 이 강의는 수직축을 다룬다.
프롬프트 공학에서는 구체적 지시, 역할 부여, 제로샷/퓨샷, 사고의 사슬(Chain of Thought), 그리고 가장 실용적인 “프롬프트 체이닝”이 핵심 도구다.
강사는 파인튜닝을 가급적 피하라고 권하며, 그 대신 프롬프트·RAG·에이전트 워크플로로 차세대 모델을 즉시 갈아끼울 수 있는 유연함을 택한다.
RAG는 문서를 임베딩해 벡터 DB에 저장하고 질의와 가까운 문서를 검색해 근거로 붙이는 기법이며, 청킹·HyDE 등으로 정밀도를 높인다.
에이전트 워크플로는 프롬프트·메모리·도구로 구성되며, 결정론적 소프트웨어에서 “퍼지” 소프트웨어로 넘어가는 패러다임 전환을 요구한다.

쉽게 이해하기

스탠퍼드 CS230 딥러닝 8강 “Beyond LLM”은 뉴런·층·심층신경망을 배운 학생들이 한 단계 더 나아가, 스타트업이나 기업에서 에이전트형 AI 시스템을 만들 때 쓰는 기법들을 폭넓게 훑는 실용 강의다. 제품을 처음부터 끝까지 만드는 것이 목표가 아니라, AI 엔지니어들이 정립한 프롬프트 기법·에이전트 워크플로·멀티에이전트·평가(eval)의 전체 지형을 보여 주어 이후 더 빠르게 깊이 파고들 토대를 주는 것이 목적이다.

강사는 먼저 바닐라 사전학습 모델의 한계를 짚는다. 특정 도메인 지식이 없고, 학습 시점 이후의 최신 정보를 따라가지 못하며, 통제가 어렵다(2016년 마이크로소프트의 트위터 봇이 16시간 만에 폭주해 내려간 사례를 든다). 또 좁은 전문 작업에서 정밀도가 부족하고, 출처를 제대로 대지 못하며, 컨텍스트 윈도우가 제한적이다. 최고 모델도 입력 토큰이 수십만 개 수준(20만 토큰이 책 두 권 분량)이고, 큰 맥락 속 특정 사실을 찾는 “건초 더미 속 바늘” 문제처럼 어텐션의 약점도 있다.

성능 향상은 두 축으로 정리된다. 하나는 기반 모델 자체를 개선하는 것(GPT-3.5 → GPT-4 → 그 이후)이고, 다른 하나는 같은 모델을 더 잘 활용하는 것이다. 강의는 후자, 즉 프롬프트·체이닝·RAG·에이전트·멀티에이전트로 성능을 끌어올리는 “수직축”에 집중한다. BCG 컨설턴트를 AI 미사용·AI 사용·AI+프롬프트 교육 세 그룹으로 나눈 연구를 인용해, AI가 도움이 되는 “들쭉날쭉한 경계(jagged frontier)”가 있고 프롬프트 훈련을 받은 그룹이 더 나았다는 점으로 프롬프트 공학의 가치를 설명한다.

프롬프트 공학에서는 “이 문서를 요약해” 같은 막연한 지시 대신, 대상 독자·분량·초점을 구체화하라고 권한다. 역할 부여(“~처럼 행동하라”), 자기 비평(reflection), 단계별로 생각하게 하는 사고의 사슬(Chain of Thought), 예시를 주는 퓨샷 프롬프트가 소개된다. 그중 가장 실용적인 기법으로 “체이닝”을 꼽는데, 하나의 복잡한 프롬프트를 여러 단계로 쪼개면 단계별로 따로 테스트·디버깅할 수 있어 어느 단계에서 성능을 가장 많이 끌어올릴 수 있는지 추적할 수 있다는 장점을 강조한다. 프롬프트 평가에는 사람이 직접 채점하는 방식과 함께, 쌍 비교·단일 채점·루브릭 기반의 “LLM 심판(LLM-as-judge)” 자동화가 제시된다.

강사는 파인튜닝을 선호하지 않는다고 밝힌다. 충분한 라벨 데이터가 필요하고, 특정 데이터에 과적합돼 범용성을 잃을 수 있으며, 시간과 비용이 많이 든다는 이유다. 무엇보다 파인튜닝을 끝낼 즈음이면 다음 모델이 나와 그 성능을 넘어서기 때문에, 코드에 최신 모델을 바로 끼워 넣을 수 있는 프롬프트 기법이 더 유연하다고 본다. 다만 법률·과학처럼 반복적 고정밀 출력이 필요하고 범용 모델이 도메인 언어에 약할 때는 의미가 있다고 덧붙인다.

이어 RAG(검색 증강 생성)를 다룬다. 문서를 임베딩해 벡터 데이터베이스에 저장하고, 사용자 질의도 같은 방식으로 임베딩한 뒤 거리 기반으로 관련 문서를 검색해 프롬프트에 근거로 붙이는 구조다. 이는 컨텍스트 한계·지식 공백·환각·출처 부재 문제를 완화한다. 큰 문서에는 챕터 단위로 임베딩을 함께 저장하는 “청킹”, 질의로 가상의 문서를 생성해 임베딩 거리를 좁히는 HyDE 같은 개선 기법이 소개된다. 마지막으로 앤드루 응이 명명한 “에이전트형 워크플로”로 넘어가, 프롬프트·메모리(작업 메모리/아카이브 메모리)·도구(API)로 구성된 에이전트가 다단계로 자율 작업을 수행하는 방식과, 결정론에서 “퍼지” 엔지니어링으로의 전환, API 대신 표준화된 연결을 제공하는 MCP(모델 컨텍스트 프로토콜)까지 설명한다.

주요 인사이트

LLM 활용은 “어떤 모델을 쓰느냐”(수평축)와 “그 모델을 어떻게 극대화하느냐”(수직축)로 나뉘며, 엔지니어가 통제할 수 있는 영역은 대부분 수직축이다.
프롬프트 체이닝의 진짜 가치는 성능 자체보다, 단계를 분리해 어디서 문제가 생기는지 추적·디버깅할 수 있게 해 준다는 데 있다.
파인튜닝은 “끝낼 때쯤 다음 모델이 이긴다”는 이유로 회피하고, 최신 모델을 즉시 갈아끼울 수 있는 프롬프트·RAG·에이전트 방식을 택하는 것이 강사의 실무 철학이다.
RAG는 무한한 컴퓨팅이 있다면 불필요하다는 논쟁도 있지만, 지연 시간과 출처 제공이라는 실용적 이점 때문에 여전히 유효하다.
에이전트 소프트웨어는 결정론적 코드와 달리 “퍼지”하므로, 가능한 부분은 결정론으로 처리하고 자유로운 부분에는 가드레일과 휴먼 인 더 루프를 설계해야 한다.
MCP는 API를 하나하나 하드코딩하는 방식보다 에이전트가 엔드포인트와 효율적으로 소통하게 해 확장성을 높이지만, 인증·보안 같은 새로운 위험도 동반한다.

자주 묻는 질문

바닐라 사전학습 LLM의 대표적 한계는 무엇인가요?

도메인 지식 부족, 학습 시점 이후 최신성 결여, 통제 어려움, 좁은 전문 작업에서의 성능 미달, 출처 부재, 제한된 컨텍스트 윈도우(최고 모델도 수십만 토큰 수준)와 큰 맥락 속 사실 탐색의 어려움 등이 강의에서 언급됩니다.

강사가 파인튜닝을 피하라고 하는 이유는?

충분한 라벨 데이터가 필요하고, 과적합으로 범용성을 잃을 수 있으며, 시간·비용이 많이 들기 때문입니다. 특히 파인튜닝을 끝낼 즈음 다음 모델이 그 성능을 넘어서므로, 코드에 최신 모델을 즉시 끼워 넣는 프롬프트 기법이 더 유연하다고 봅니다. 다만 법률·과학처럼 고정밀이 필요할 때는 의미가 있습니다.

RAG는 어떻게 작동하나요?

문서를 임베딩해 벡터 데이터베이스에 저장하고, 사용자 질의도 같은 방식으로 임베딩한 뒤 거리 기반으로 관련 문서를 검색합니다. 검색된 문서를 프롬프트에 근거로 붙여 답을 생성하므로 더 정확하고 최신이며 출처가 있는 답을 만들 수 있습니다. 큰 문서에는 청킹, HyDE 같은 개선 기법을 씁니다.

MCP(모델 컨텍스트 프로토콜)는 무엇이고 왜 쓰나요?

앤스로픽이 제안한 개념으로, API를 일일이 하드코딩해 LLM에 연결하는 대신 에이전트가 엔드포인트와 효율적으로 소통하도록 중간에 표준 계층을 두는 방식입니다. 확장성이 좋아지는 대신 인증·보안 같은 새 위험도 따른다고 강의는 설명합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗