AI VIDEO BRIEFING

거대 언어 모델(LLM) 작동 원리: 데이터, 트랜스포머, 학습 한눈에 정리

GPT 같은 거대 언어 모델이 무엇이고 어떻게 사람처럼 글을 쓰는지, 데이터와 트랜스포머 아키텍처, 학습 과정을 IBM 영상 내용을 바탕으로 쉽게 설명합니다.

출처: IBM Technology2023년 7월 28일AI 보조 요약

거대 언어 모델(LLM)은 어떻게 작동하는가: 데이터·아키텍처·학습으로 풀어보기 영상 대표 이미지

핵심 메시지

LLM은 라벨이 없는 방대한 텍스트를 자기지도 방식으로 미리 학습한 '파운데이션 모델'의 한 종류로, 텍스트와 코드에 특화돼 있다.
LLM은 데이터, 아키텍처(트랜스포머 신경망), 학습이라는 세 가지 요소로 이뤄진다.
트랜스포머는 문장 속 각 단어를 다른 모든 단어와의 관계 속에서 이해해 문맥을 파악한다.
모델은 '다음 단어 맞히기'를 반복하며 내부 파라미터를 조정해 점점 더 자연스러운 문장을 생성한다.
고객 응대 챗봇, 콘텐츠 생성, 코드 작성·검토 등 다양한 업무에 활용된다.

쉽게 이해하기

GPT는 'Generative Pre-trained Transformer'의 약자로, 사람처럼 자연스러운 글을 만들어내는 거대 언어 모델(LLM)이다. LLM은 더 큰 범주인 파운데이션 모델의 한 사례로, 라벨이 붙지 않은 대규모 데이터를 자기지도 학습으로 미리 익혀 일반화되고 적응력 있는 결과를 낸다. 그중에서도 텍스트와 코드처럼 글에 가까운 데이터에 특화된 것이 LLM이다.

이 모델들은 책, 기사, 대화 같은 방대한 텍스트로 학습한다. 영상에서는 그 규모를 가늠하기 위해 1기가바이트 텍스트 파일이 약 1억 7,800만 단어를 담을 수 있고, 1페타바이트는 약 100만 기가바이트에 해당한다고 설명한다. 예시로 든 GPT-3는 약 45테라바이트 분량의 말뭉치로 사전 학습됐으며 1,750억 개의 파라미터를 사용한다. 파라미터는 모델이 학습하며 스스로 조정하는 값으로, 그 수가 많을수록 모델은 더 복잡해질 수 있다.

작동 원리는 데이터, 아키텍처, 학습의 세 축으로 정리된다. 아키텍처는 신경망이며 GPT의 경우 트랜스포머다. 트랜스포머는 문장이나 코드처럼 순서가 있는 데이터를 다루도록 설계됐고, 한 단어를 문장 내 다른 모든 단어와의 관계 속에서 살펴 문맥과 의미를 종합적으로 이해한다.

학습 단계에서 모델은 문장의 다음 단어를 예측하는 법을 배운다. '하늘은…'이라는 문장에서 처음에는 엉뚱한 단어를 내놓지만, 반복할 때마다 예측과 실제 정답의 차이를 줄이도록 내부 파라미터를 조정해 결국 '파랗다'처럼 일관된 문장을 안정적으로 만들어낸다. 이후 더 작고 구체적인 데이터로 미세 조정(파인튜닝)하면 범용 모델이 특정 작업의 전문가로 거듭난다.

비즈니스 활용 측면에서는 다양한 고객 문의를 처리해 사람 상담원이 복잡한 문제에 집중하게 돕는 챗봇, 기사·이메일·소셜 게시물·영상 대본 같은 콘텐츠 생성, 코드 생성과 검토를 통한 소프트웨어 개발 지원 등이 대표적이다. 영상은 이것이 빙산의 일각이며 LLM이 발전할수록 더 혁신적인 활용이 나올 것이라고 전망한다.

주요 인사이트

LLM의 '거대함'은 단순한 데이터 양뿐 아니라 파라미터 수에서도 드러나며, 파라미터가 많을수록 더 복잡한 패턴을 담을 수 있다.
트랜스포머의 핵심은 단어를 고립적으로 보지 않고 문장 전체의 관계망 속에서 해석한다는 점이다.
'다음 단어 예측'이라는 단순한 목표의 반복이 결국 일관된 문장 생성 능력으로 이어진다.
사전 학습된 범용 모델을 파인튜닝하면 적은 데이터로도 특정 작업의 정확도를 끌어올릴 수 있다.

자주 묻는 질문

거대 언어 모델(LLM)이란 무엇인가요?

라벨이 없는 대규모 데이터를 자기지도 방식으로 사전 학습한 파운데이션 모델의 한 종류로, 텍스트와 코드처럼 글에 가까운 데이터에 특화된 모델입니다. GPT가 대표적인 예입니다.

LLM은 어떻게 글을 생성하나요?

학습 과정에서 문장의 다음 단어를 예측하도록 훈련되며, 예측과 실제 정답의 차이를 줄이도록 내부 파라미터를 반복 조정해 점점 더 일관된 문장을 만들어냅니다.

파인튜닝(미세 조정)은 왜 하나요?

사전 학습된 범용 모델을 더 작고 구체적인 데이터로 추가 학습시켜, 특정 작업을 더 정확하게 수행하는 전문가 모델로 만들기 위해서입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗