AI VIDEO BRIEFING

LLM(대규모 언어 모델)이란? 사전학습·미세조정·프롬프트 설계 한눈에 정리

구글 클라우드의 LLM 입문 강의를 정리했다. 대규모 언어 모델의 정의와 세 가지 특징, 사전학습과 미세조정, 프롬프트 설계와 엔지니어링의 차이, LLM의 종류와 효율적 튜닝 방법까지 핵심만 짚는다.

출처: Google Cloud Tech2023년 5월 8일AI 보조 요약

대규모 언어 모델(LLM)이란 무엇인가: 사전학습부터 프롬프트 설계까지 영상 대표 이미지

핵심 메시지

LLM은 딥러닝의 한 갈래로, 방대한 데이터로 사전학습한 뒤 적은 도메인 데이터로 미세조정해 다양한 언어 문제를 푸는 범용 모델이다.
'대규모'는 학습 데이터의 크기(때로 페타바이트급)와 파라미터 수를 동시에 뜻하며, 파라미터는 모델이 학습으로 얻은 지식과 기억에 해당한다.
하나의 모델로 번역·요약·분류·질의응답 등 여러 작업을 처리할 수 있고, 적은 도메인 데이터(퓨샷·제로샷)로도 쓸 만한 성능을 낸다.
전통적 머신러닝과 달리 LLM 활용에서는 모델을 직접 학습시키기보다 '프롬프트 설계'가 핵심 역량이 된다.
LLM은 범용형, 인스트럭션 튜닝형, 대화 튜닝형 세 가지로 나뉘며 각각 프롬프트를 다루는 방식이 다르다.

쉽게 이해하기

대규모 언어 모델(LLM)은 딥러닝의 하위 분야로, 새 콘텐츠를 만들어내는 생성형 AI와도 맞닿아 있다. 강사는 LLM을 '사전학습한 뒤 특정 목적에 맞게 미세조정할 수 있는 범용 언어 모델'로 정의한다. 즉 텍스트 분류·질의응답·문서 요약·텍스트 생성 같은 공통 문제를 산업 전반에서 풀도록 먼저 학습시키고, 이후 소매·금융·엔터테인먼트 같은 분야의 비교적 작은 데이터로 맞춤화한다.

강의는 LLM의 세 가지 특징을 강아지 훈련에 빗대 설명한다. 기본 명령을 가르치듯 범용 목적으로 먼저 학습시키고, 경찰견·안내견처럼 특수 목적이 필요하면 추가 훈련을 더한다. '대규모'는 페타바이트급에 이르는 학습 데이터의 크기와 파라미터 수를 함께 가리키며, '범용'은 인간 언어의 공통성과 자원 제약 때문에 소수의 조직이 만든 기반 모델을 여럿이 함께 쓰는 구조를 뜻한다.

LLM의 장점은 분명하다. 단일 모델 하나로 번역·문장 완성·분류·질의응답 등 여러 작업을 처리할 수 있고, 특정 문제에 맞출 때 필요한 도메인 데이터가 적어 퓨샷·제로샷 상황에서도 쓸 만하다. 데이터와 파라미터를 늘릴수록 성능이 계속 향상되는데, 강사는 5,400억 개 파라미터를 가진 구글의 PaLM을 예로 든다. PaLM은 인코더와 디코더로 구성되는 트랜스포머 계열 모델이다.

강의는 전통적 프로그래밍에서 신경망을 거쳐 생성형 모델로 이어진 흐름을 짚는다. 과거엔 규칙을 일일이 코딩했고, 신경망 단계에선 예시를 주고 분류하게 했다면, 생성형 단계에선 사용자가 프롬프트만으로 콘텐츠를 만들어낸다. 이 때문에 '프롬프트 설계'와 '프롬프트 엔지니어링'이 중요해지는데, 전자는 작업에 맞춘 명확하고 간결한 프롬프트를 짜는 일반 개념이고 후자는 성능 향상을 노린 특화 개념이다.

끝으로 LLM은 범용형, 인스트럭션 튜닝형, 대화 튜닝형 세 종류로 나뉘며 각기 다른 프롬프트 방식을 요구한다. 또한 정답의 근거를 먼저 쓰게 하는 '생각의 사슬(chain-of-thought)'이 정답률을 높인다고 소개한다. 미세조정은 비용이 커서 비현실적인 경우가 많으므로, 기반 모델은 그대로 두고 소수의 추가 레이어만 조정하는 파라미터 효율적 튜닝(PETM)과 Vertex AI·Generative AI Studio 같은 구글 도구가 대안으로 제시된다.

주요 인사이트

모델을 새로 학습시키는 대신 프롬프트를 잘 설계하는 일이 LLM 시대의 핵심 역량으로 옮겨갔다.
'생각의 사슬'처럼 답의 근거를 먼저 출력하게 하면 모델의 정답률이 올라간다.
미세조정은 비싸고 비현실적인 경우가 많아, 기반 모델을 건드리지 않고 소수의 레이어만 조정하는 PETM 같은 효율적 방법이 부상한다.
좁고 잘 정의된 문제에는 만능 모델보다 분류·감성분석 같은 태스크 특화 모델이 더 신뢰도가 높다.

자주 묻는 질문

사전학습(pre-trained)과 미세조정(fine-tuned)은 어떻게 다른가?

사전학습은 큰 데이터로 범용 목적의 모델을 만드는 과정이고, 미세조정은 훨씬 작은 도메인 데이터로 그 모델을 특정 목적에 맞게 다듬는 과정이다.

프롬프트 설계와 프롬프트 엔지니어링의 차이는?

프롬프트 설계는 작업에 맞춰 명확·간결·정보적인 프롬프트를 짜는 일반 개념으로 필수적이고, 프롬프트 엔지니어링은 도메인 지식·예시·효과적 키워드로 성능을 끌어올리는 특화 개념으로 높은 정확도가 필요한 시스템에만 요구된다.

퓨샷(few-shot)과 제로샷(zero-shot)이란?

퓨샷은 최소한의 데이터만으로 모델을 학습시키는 것이고, 제로샷은 학습 때 명시적으로 가르치지 않은 대상도 모델이 인식해내는 것을 뜻한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗