AI VIDEO BRIEFING

생성형 AI 기초 완전 정리 — LLM 원리, 트랜스포머, 임베딩과 LangChain 입문

생성형 AI의 개념부터 LLM의 작동 원리, 트랜스포머와 임베딩·벡터 DB, 그리고 LangChain으로 증권 뉴스 리서치·유통 Q&A 같은 실제 애플리케이션을 만드는 흐름까지 입문자 눈높이로 정리한 강좌 요약.

출처: codebasics2024년 4월 26일AI 보조 요약

생성형 AI 입문: 다음 단어를 맞히는 ‘앵무새’에서 LangChain·벡터 DB까지 영상 대표 이미지

핵심 메시지

생성형 AI는 텍스트·이미지·영상·오디오 등 ‘새로운 콘텐츠를 만들어 내는’ AI로, 데이터를 보고 판단만 하는 비생성형 AI와 구분된다.
AI는 통계적 머신러닝 → 딥러닝(신경망) → RNN → 트랜스포머 순으로 발전했고, ‘Attention is all you need’ 논문이 트랜스포머의 출발점이 됐다.
언어 모델은 본질적으로 ‘다음 단어를 확률로 예측’하는 모델이며, 위키백과·뉴스·책에서 빈칸 맞히기식 학습쌍을 만드는 자기지도학습으로 라벨 없이 훈련한다.
LLM은 수십억~수조 개의 파라미터를 가진 거대 신경망으로, 의미를 이해하기보다 통계적 확률로 다음 단어를 내놓는 ‘확률적 앵무새’에 가깝고 RLHF로 유해성을 줄인다.
임베딩은 의미를 담은 숫자 벡터로 텍스트를 표현해 단어 간 연산까지 가능하게 하며, 벡터 DB와 LangChain을 결합하면 실제 생성형 AI 애플리케이션을 만들 수 있다.

쉽게 이해하기

이 강좌는 생성형 AI의 기초를 먼저 다진 뒤, 파이썬 프레임워크인 LangChain을 배우고, 마지막으로 두 개의 엔드투엔드 프로젝트를 만든다. 첫 프로젝트는 상용 GPT 모델로 ‘증권 뉴스 리서치 도구’를, 두 번째는 오픈소스 LLM으로 ‘유통업 Q&A 도구’를 구축한다.

강사는 생성형과 비생성형 AI를 먼저 구분한다. 비생성형은 흉부 X-ray로 폐렴 여부를 가리거나 신용 이력으로 대출 가부를 결정하는 것처럼 ‘새 콘텐츠를 만들지 않고 판단’하는 문제다. 반면 생성형 AI는 ChatGPT처럼 이력서 작성, 여행 계획, 이미지 생성 등 새로운 콘텐츠 자체를 만들어 낸다.

기술의 진화도 짚는다. 집값을 면적·방 개수·연식 같은 ‘특징(feature)’으로 예측하던 통계적 머신러닝에서, 고양이·개 이미지처럼 복잡한 비정형 데이터를 다루기 위한 신경망(딥러닝)으로, 다시 번역처럼 순서가 있는 문제를 위한 RNN으로 나아갔다. RNN은 같은 신경망에 단어와 이전 출력을 차례로 넣어 ‘순환’ 구조를 만든다. 지메일 자동완성처럼 ‘다음 단어의 확률을 예측’하는 것이 바로 언어 모델이다.

언어 모델은 위키백과·뉴스·책에서 ‘빈칸 채우기’ 학습쌍을 자동으로 만들어 훈련하는데, 라벨 데이터가 필요 없어 자기지도학습이라 부른다. 신경망이 충분히 크고 층이 많아지면 LLM이 되며, GPT-4는 약 1,750억 개의 파라미터(가중치)를 가진다. ‘Attention is all you need’ 논문이 강력한 트랜스포머 구조를 낳았고, 구글 BERT·OpenAI GPT 같은 텍스트 모델, DALL·E·Stable Diffusion 같은 이미지 모델, OpenAI Sora 같은 영상 모델이 모두 트랜스포머 위에서 가능해졌다.

강사는 LLM을 ‘확률적 앵무새’에 비유한다. 앵무새 버디는 들은 대화를 흉내 내며 통계적 확률과 약간의 무작위성으로 다음 단어를 내놓을 뿐, 의미를 이해하지는 못한다. LLM도 위키백과·뉴스·책 같은 방대한 데이터로 학습한 거대 신경망일 뿐이며, 감정이나 의식은 없다. 다만 RLHF(인간 피드백 강화학습)로 사람이 유해한 답변을 가려내 모델의 독성을 줄인다. 끝으로 임베딩은 의미를 담은 숫자 벡터로 텍스트를 표현해 ‘파리 − 프랑스 + 인도 = 델리’ 같은 연산을 가능하게 하고, 이 임베딩을 저장·검색하는 벡터 DB와 LangChain을 결합해 실제 애플리케이션으로 이어진다.

주요 인사이트

생성형 AI의 핵심은 ‘판단’이 아니라 ‘새 콘텐츠 생성’이라는 점에서 기존 머신러닝과 결정적으로 갈린다.
언어 모델의 본질은 ‘다음 단어 확률 예측’이며, 자기지도학습 덕분에 비싼 라벨 없이 방대한 텍스트로 훈련할 수 있다.
‘확률적 앵무새’ 비유는 LLM이 의미를 이해한다는 오해를 바로잡는다. 모델은 통계적 패턴을 따를 뿐 의식이 없다.
RLHF는 모델 성능이 아니라 ‘안전성·유해성 완화’를 위해 사람의 판단을 학습에 끼워 넣는 장치다.
임베딩과 벡터 DB는 의미 기반 검색을 가능하게 하며, LangChain은 이를 묶어 실제 제품(뉴스 리서치·유통 Q&A)으로 구현하는 접착제 역할을 한다.

자주 묻는 질문

생성형 AI와 비생성형 AI는 어떻게 다른가?

비생성형 AI는 X-ray로 폐렴 여부를 가리거나 신용 이력으로 대출을 결정하는 것처럼 ‘새 콘텐츠를 만들지 않고 판단’한다. 생성형 AI는 ChatGPT처럼 텍스트·이미지·영상·오디오 등 새로운 콘텐츠를 생성한다.

LLM은 어떻게 학습하고 작동하나?

위키백과·뉴스·책에서 빈칸 맞히기식 학습쌍을 만드는 자기지도학습으로 훈련해 ‘다음 단어를 확률로 예측’한다. GPT-4 같은 LLM은 약 1,750억 개의 파라미터를 가진 거대 신경망이며, 의미를 이해한다기보다 통계적 확률로 단어를 내놓는 ‘확률적 앵무새’에 가깝다.

임베딩과 벡터 DB는 왜 필요한가?

임베딩은 의미를 담은 숫자 벡터로 텍스트를 표현해 ‘파리 − 프랑스 + 인도 = 델리’ 같은 연산을 가능하게 한다. 벡터 DB는 이 임베딩을 저장하고 효율적으로 검색하게 해, LangChain과 함께 실제 생성형 AI 애플리케이션을 만드는 토대가 된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗