AI VIDEO BRIEFING

LLM 대규모 언어 모델이란? 트랜스포머·프롬프트 디자인 쉽게 이해하기

구글 개발자 영상을 바탕으로 대규모 언어 모델(LLM)이 무엇인지, 트랜스포머 구조와 '고급 자동완성' 원리, 제로샷·퓨샷과 프롬프트 디자인까지 비전문가도 알 수 있게 정리했습니다.

출처: Google for Developers2023년 5월 5일AI 보조 요약

LLM이란 무엇인가: 대규모 언어 모델의 작동 원리와 프롬프트 활용법 영상 대표 이미지

핵심 메시지

LLM은 인간 언어를 이해하고 생성하는 데 특화된 머신러닝 모델로, 구글이 고안한 트랜스포머 신경망 구조에 기반한다.
모델과 학습 데이터의 규모를 크게 키우자 비로소 복잡하고 미묘한 언어를 이해하는 능력이 나타났다.
하나의 LLM으로 대화·번역·요약·코드 생성 등 다양한 작업을 처리할 수 있고, 머신러닝 전문가가 아니어도 빠르게 시제품을 만들 수 있다.
LLM은 본질적으로 입력 다음에 올 법한 텍스트를 예측하는 '정교한 자동완성'이며, 입력하는 텍스트(프롬프트)를 잘 설계하는 것이 핵심이다.
프롬프트 작성에 정해진 최적의 방법은 없으며, 결과가 모델에 크게 좌우되므로 여러 형식을 실험해 보는 것이 중요하다.

쉽게 이해하기

영상은 챗봇을 통해 누구나 한 번쯤 AI와 대화해 봤을 만큼 AI의 언어 능력이 좋아졌다는 점에서 출발한다. 이 발전의 배경에는 대규모 언어 모델(LLM)이라는 강력한 신경망이 있으며, LLM은 컴퓨터가 그 어느 때보다 언어를 잘 이해하고 생성하도록 해 수많은 새로운 응용을 가능하게 했다.

LLM은 구글이 발명한 트랜스포머라는 신경망 구조에 기반한다. 트랜스포머가 강력했던 이유는 효과적으로 규모를 키울 수 있었기 때문으로, 덕분에 방대한 텍스트 데이터로 모델을 학습시킬 수 있게 됐다. '대규모'라는 말은 신경망 자체의 크기와 복잡성, 그리고 학습에 쓰인 데이터의 크기를 모두 가리킨다. 일부 모델은 공개된 출처에서 모은 수조 개의 토큰으로 학습한다.

기존 머신러닝이 '이 트윗이 긍정인가 부정인가' 같은 특정 작업 하나를 위해 모델을 학습시키는 방식이었다면, LLM은 하나의 모델로 대화·카피라이팅·번역·요약·브레인스토밍·코드 생성 등 매우 다양한 작업을 처리할 수 있다는 점이 특별하다. 또 몇 달이 아니라 몇 분 만에 언어 응용의 시제품을 만들 수 있고, 이를 위해 필요한 것은 사실상 '글을 쓸 줄 아는 능력'뿐이다.

LLM의 작동 방식은 입력 텍스트를 받아 그 뒤에 이어질 법한 텍스트를 내놓는 것으로, 영상은 이를 '정교한 자동완성'에 비유한다. 예컨대 '비가 억수같이(cats and)'를 입력하면 'dogs'를 예측하는 식이다. 이 단순해 보이는 기능에 전략적으로 텍스트를 입력하면 간단한 수학('사과 둘 중 하나를 먹으면 남는 건' → 하나)이나 유추('파리:프랑스 = 도쿄:?' → 일본) 같은 과제도 풀 수 있다. 다만 모델이 내놓는 지식이 늘 사실로 정확한 것은 아니라는 단서가 붙는다.

LLM에 넣는 입력 텍스트 전체를 프롬프트라 부르며, 원하는 결과를 끌어내기 위해 프롬프트를 어떻게 쓰고 형식화할지 고민하는 '프롬프트 디자인'이라는 영역이 있다. 명령 하나로 동작을 끌어내는 제로샷, 몇 가지 예시를 함께 보여 주는 퓨샷 방식이 소개되며, 실제 앱에서는 프롬프트에 값을 고정하지 말고 사용자 입력을 매개변수로 받도록 만들어야 한다고 설명한다.

주요 인사이트

LLM의 핵심 도약은 알고리즘의 화려함보다 '규모의 확장'에서 나왔다. 모델과 데이터를 충분히 키우기 전에는 인상적인 결과가 나타나지 않았다.
범용성이 LLM의 가장 큰 강점이다. 작업별로 모델을 따로 만들 필요 없이 하나의 모델을 여러 용도로 돌려쓸 수 있다.
'자동완성'이라는 단순한 메커니즘이 프롬프트 설계와 만나면 수학·유추·번역·코드 변환 같은 폭넓은 과제 해결로 확장된다.
퓨샷 예시는 모델에 '패턴'을 알려 주는 행위다. 영어→프랑스어 예시를 주면 모델이 그 패턴을 이어서 추가 번역쌍까지 만들어 내기도 한다.
프롬프트에는 정답 공식이 없다. 단어나 어순의 작은 변화가 예측하기 어려운 방식으로 결과를 바꾸므로 실험이 곧 전략이다.

자주 묻는 질문

LLM은 무엇에 기반한 모델인가요?

구글이 발명한 트랜스포머라는 신경망 구조에 기반합니다. 트랜스포머는 규모를 효과적으로 키울 수 있어 방대한 텍스트 데이터로 학습이 가능했고, 이것이 LLM의 토대가 되었습니다.

왜 LLM을 '자동완성'에 비유하나요?

LLM은 입력된 텍스트를 받아 그 뒤에 이어질 가능성이 높은 텍스트를 예측해 내놓기 때문입니다. 영상은 '비가 억수같이' 다음에 'dogs'를 예측하는 예시로 이를 설명하며, 이 예측 능력을 전략적 입력과 결합해 다양한 과제를 풀 수 있다고 말합니다.

제로샷과 퓨샷의 차이는 무엇인가요?

제로샷은 '셰익스피어 풍으로 시를 써 줘'처럼 단일 명령만으로 모델이 동작하게 하는 방식이고, 퓨샷은 명령에 더해 몇 가지 예시를 함께 제시해 원하는 텍스트 패턴을 모델에 알려 주는 방식입니다.

프롬프트를 쓰는 가장 좋은 방법이 정해져 있나요?

영상에 따르면 현재로서는 모델 프롬프트를 쓰는 최적의 방법이 없습니다. 결과가 기반 모델에 크게 좌우되고 단어나 어순의 작은 변화도 결과를 바꿀 수 있으므로, 여러 구조와 예시, 형식을 시도해 자신의 사례에 맞는 것을 찾는 편이 좋습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗