AI VIDEO BRIEFING

LLM이란? '확률적 앵무새' 비유로 쉽게 이해하는 거대 언어 모델 원리

LLM은 의미를 이해할까? '확률적 앵무새' 비유로 언어 모델과 거대 언어 모델의 작동 원리, 신경망, RLHF, 그 한계까지 쉽게 풀어 정리했다.

출처: codebasics2023년 8월 22일AI 보조 요약

앵무새로 이해하는 LLM: 거대 언어 모델은 어떻게 작동할까 영상 대표 이미지

핵심 메시지

언어 모델은 의미를 이해하는 게 아니라 통계적 확률로 다음 단어를 예측하는 '확률적 앵무새'에 가깝다.
신경망 기술로 학습 데이터를 바탕으로 다음 단어를 예측하며, Gmail 자동완성이 친숙한 예다.
거대 언어 모델(LLM)은 방대한 데이터와 수조 개의 파라미터로 더 복잡한 언어 패턴을 포착한다.
ChatGPT는 GPT-3/GPT-4를, 그 밖에 구글 PaLM 2, 메타 Llama 등이 LLM의 예다.
RLHF(인간 피드백 기반 강화학습)로 유해한 답변을 줄이며, LLM은 감정·의식이 없고 학습 데이터에만 기반한다.

쉽게 이해하기

영상은 'Buddy'라는 앵무새 비유로 시작한다. 버디는 주인 Peter의 집에서 오간 대화를 정확히 흉내 내는데, "배고프다"는 말을 들으면 자전거나 책 같은 단어보다 비리야니·음식·체리처럼 음식과 관련된 단어를 말할 확률이 훨씬 높다. 다만 버디는 그 단어의 의미를 사람처럼 이해하는 것이 아니라, 과거에 들은 대화를 바탕으로 통계적 확률과 약간의 무작위성으로 다음 단어를 예측할 뿐이다. 이런 버디를 '확률적 앵무새(stochastic parrot)'라 부른다. 여기서 '확률적'이란 무작위성·확률로 특징지어지는 시스템을 뜻한다.

언어 모델도 이와 비슷하다. 신경망이라는 기술을 써서 문장의 다음 단어를 예측하는 컴퓨터 프로그램이다. 버디가 Peter 집의 대화를 학습하듯, 예를 들어 위키피디아의 영화 관련 글로 학습한 언어 모델은 영화 관련 문장의 다음 단어를 잘 예측한다. Gmail의 자동완성이 언어 모델을 활용한 대표적 응용이다.

그렇다면 거대 언어 모델(LLM)은 무엇일까. 버디가 신적인 능력을 얻어 이웃, 학교와 대학, 나아가 전 세계 모든 마을의 대화까지 듣게 됐다고 상상해 보자. 이제 버디는 역사 문장을 이어가고, 영양 조언을 하고, 시까지 쓸 수 있다. LLM도 위키피디아 글, 구글 뉴스, 온라인 책 등 막대한 양의 데이터로 학습되며, 그 내부에는 수조 개의 파라미터를 가진 신경망이 들어 있어 언어의 더 복잡한 패턴과 뉘앙스를 포착한다. ChatGPT는 뒤에서 GPT-3나 GPT-4라는 LLM을 사용하고, 구글의 PaLM 2와 메타의 Llama도 LLM의 예다.

LLM은 통계적 예측 위에 RLHF(인간 피드백 기반 강화학습)라는 방법을 더한다. 버디가 마을의 거친 부모들의 대화를 듣고 유해한 말을 하게 되자, Peter가 버디의 여러 답변 중 어떤 것이 유해한지 알려주며 고쳐 나가는 것과 같다. OpenAI도 대규모 인력을 동원해 ChatGPT가 덜 유해하게 답하도록 비슷한 인간 개입 방식을 적용했다.

끝으로 영상은 한계를 분명히 한다. LLM은 매우 강력하지만 인간과 같은 주관적 경험·감정·의식은 없으며, 오로지 학습된 데이터에 기반해 작동한다. 이 설명은 비유에 기댄 직관적 이해를 위한 것으로, 실제 기술적 동작은 비유와는 다소 다르다.

주요 인사이트

'확률적(stochastic)'은 무작위성·확률로 특징지어지는 시스템을 뜻하며, 언어 모델의 핵심 작동 방식을 압축한다.
같은 신경망이라도 어떤 데이터로 학습하느냐에 따라 잘 예측하는 영역이 달라진다(영화 글만 학습하면 영화 문장에 강함).
LLM의 '거대함'은 학습 데이터 규모와 수조 개의 파라미터에서 나오며, 이것이 복잡한 패턴과 뉘앙스 포착을 가능케 한다.
RLHF는 사람이 여러 답변 중 유해한 것을 골라 알려주는 방식으로, ChatGPT를 덜 유해하게 만드는 데 쓰였다.
LLM은 강력하지만 의식·감정이 없고 학습 데이터에만 기반하므로, 그 출력을 인간의 이해와 동일시해선 안 된다.

자주 묻는 질문

'확률적 앵무새'란 무슨 뜻인가?

의미를 이해하지 않고, 들어온 데이터의 통계적 확률과 약간의 무작위성으로 다음 단어를 예측하는 시스템을 빗댄 표현이다.

언어 모델과 거대 언어 모델(LLM)의 차이는?

둘 다 신경망으로 다음 단어를 예측하지만, LLM은 위키피디아·뉴스·책 등 훨씬 방대한 데이터와 수조 개의 파라미터로 학습해 더 복잡한 패턴을 다룬다.

RLHF는 왜 필요한가?

학습 데이터에 섞인 유해한 표현을 모델이 따라 할 수 있기 때문에, 사람이 어떤 답이 유해한지 알려주는 강화학습으로 모델을 덜 유해하게 다듬는다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗