AI VIDEO BRIEFING

ChatGPT 학습 원리 3단계: 사전학습·지도 미세조정·RLHF 쉽게 이해하기

대규모 언어모델 ChatGPT가 인터넷 데이터 사전학습, 지도 미세조정(SFT), 인간 피드백 강화학습(RLHF)의 3단계로 완성되는 과정을 예시와 함께 풀어 설명합니다.

출처: Krish Naik2023년 5월 26일AI 보조 요약

ChatGPT는 어떻게 학습되는가: 사전학습·지도 미세조정·인간 피드백 강화학습 3단계 해설 영상 대표 이미지

핵심 메시지

ChatGPT 같은 대규모 언어모델은 '사전학습 → 지도 미세조정 → 인간 피드백 강화학습'의 3단계를 거쳐 만들어진다.
1단계 사전학습은 인터넷의 방대한 텍스트를 트랜스포머로 학습해 번역·요약·문장완성 등을 하는 기본 GPT 모델을 만든다.
2단계 지도 미세조정(SFT)은 사람이 만든 '요청-응답' 대화 데이터로 모델을 대화형 챗봇에 맞게 다듬는다.
3단계 RLHF는 여러 응답에 사람이 순위를 매겨 보상 모델을 만들고, 이를 기준으로 응답 품질을 끌어올리는 결정적 단계다.
ChatGPT 3.5는 약 1,750억 개의 파라미터로 학습됐으며, GPT-4는 그보다 더 많은 파라미터를 갖는다.

쉽게 이해하기

이 영상은 데이터 과학 교육자로 알려진 크리시 나익이 ChatGPT로 대표되는 대규모 언어모델(LLM)이 어떤 원리로 학습되는지를 도식과 비유를 곁들여 설명한 강의다. 발표자는 LLM을 '엄청난 양의 데이터로 학습되어 특정 문제를 푸는 아주 큰 모델'로 정의하고, 텍스트-텍스트, 텍스트-이미지, 텍스트-영상 등 다양한 형태가 있다고 소개한다.

핵심은 ChatGPT가 세 단계로 학습된다는 점이다. 첫 번째 단계인 '생성형 사전학습(generative pre-training)'에서는 웹사이트, 기사, 책, 공개 포럼 등 인터넷의 방대한 텍스트를 인코더-디코더 구조의 트랜스포머로 학습시켜 기본 GPT 모델을 만든다. 이 기본 모델은 이미 번역, 요약, 문장 완성, 감성 분석 같은 작업을 수행할 수 있다.

두 번째 단계는 '지도 미세조정(SFT, supervised fine-tuning)'이다. 발표자는 두 사람이 각각 사용자와 챗봇 역할을 맡아 실제 대화를 주고받는 상황을 예로 든다. 이렇게 모은 수백만 건의 '요청(입력)-응답(출력)' 데이터를 학습 코퍼스로 만들어 기본 GPT 모델을 대화형으로 조정하며, 이때 확률적 경사하강법(SGD)이 최적화에 쓰인다.

세 번째 단계인 '인간 피드백 강화학습(RLHF)'이 정확도를 비약적으로 끌어올리는 가장 중요한 대목이다. 같은 요청에 대해 SFT 모델이 내놓은 여러 응답을 사람이 좋은 순서대로 순위 매기고, 이 순위를 바탕으로 각 응답에 점수를 부여하는 보상 모델(이진 분류, 교차 엔트로피 사용)을 만든다. 이후 근접 정책 최적화(PPO) 기법으로 좋은 응답에 더 큰 보상을 주도록 모델을 반복 개선한다.

발표자는 어려운 개념을 요리사 비유로 풀어낸다. 손님의 주문을 받은 요리사가 여러 사람에게 어떤 음식을 좋아하는지 물어 응답을 모으고 순위를 매긴 뒤, 그 피드백으로 '어떤 요리를 낼지' 판단하는 보상 모델을 세우는 과정이 RLHF와 같다는 것이다.

주요 인사이트

LLM은 마법이 아니라 '방대한 책을 읽고 그 안의 내용을 답하는 사람'에 가깝다. 학습된 데이터 범위 안에서 답을 생성하며, 벗어난 질문에는 엉뚱한 답을 낼 수 있다.
1·2단계만 거친 SFT 모델은 학습 데이터에 없는 질문에 이상한 답을 내놓는 한계가 있고, 이를 보완하기 위해 3단계 RLHF가 도입됐다.
트랜스포머의 '어텐션' 메커니즘이 번역·요약 등 다양한 작업의 기반이 되며, ChatGPT와 Bard 모두 인코더-디코더 트랜스포머 구조를 사용한다.
데이터 생성이나 코드 작성 자체는 개인도 시도할 수 있지만, 실제 상용 모델 수준의 학습에는 기업 규모의 방대한 데이터셋이 필요하다.
프롬프트 엔지니어링은 SFT 단계에서 사람이 좋은 요청-응답 예시를 만드는 역할과 맞닿아 있어, 모델 품질에 직접 영향을 준다.

자주 묻는 질문

ChatGPT 학습의 3단계는 무엇인가요?

생성형 사전학습(기본 GPT 모델 생성), 지도 미세조정(SFT, 요청-응답 데이터로 대화형 조정), 인간 피드백 강화학습(RLHF, 응답 순위와 보상 모델로 품질 개선)의 세 단계입니다.

RLHF에서 보상 모델은 어떻게 만들어지나요?

같은 요청에 대한 여러 응답을 사람이 좋은 순서로 순위 매기고, 그 순위를 바탕으로 각 응답에 0~1 사이 확률 점수를 부여하는 이진 분류 모델을 만듭니다. 이후 근접 정책 최적화(PPO)로 보상을 반복 갱신합니다.

ChatGPT 3.5는 얼마나 많은 파라미터로 학습됐나요?

영상에 따르면 ChatGPT 3.5는 약 1,750억 개의 파라미터로 학습됐으며, GPT-4는 그보다 더 많은 파라미터를 갖는다고 설명합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗