AI VIDEO BRIEFING

생성형 AI 입문 가이드: ChatGPT·대규모언어모델·확산모델 핵심 개념 총정리

AI를 처음 접하는 사람을 위한 생성형 AI 입문 가이드. ChatGPT의 등장과 대규모 언어모델의 작동 원리, 주요 기업과 모델, 텍스트·이미지·영상·음성을 만드는 확산모델, 실생활 활용법과 프롬프트 개념까지 한 영상으로 정리한다.

출처: Howfinity2023년 12월 18일AI 보조 요약

생성형 AI 완전 초보 가이드: ChatGPT부터 이미지·영상 생성까지 한 번에 정리 영상 대표 이미지

핵심 메시지

2022년 11월 공개된 ChatGPT는 한 달 만에 1억 명이 써 보며 AI를 주류로 끌어올렸다.
생성형 AI는 텍스트·코드·이미지·영상·음성을 만들어내는 AI의 큰 범주다.
텍스트를 만드는 대규모 언어모델(LLM)은 방대한 글로 학습해 '다음 단어를 추측'하는 방식으로 작동한다.
이미지·영상·음성은 확산모델(diffusion model)이 텍스트 프롬프트로 생성한다.
프롬프트(입력 문장)를 잘 다듬는 기술을 프롬프트 엔지니어링이라 한다.

쉽게 이해하기

이 영상은 AI를 처음 접하거나 최신 흐름을 따라가지 못한 사람을 위해 생성형 AI의 큰 그림을 한 번에 정리한다. 출발점은 2022년 11월 오픈AI가 공개한 ChatGPT다. 무료 챗봇이었던 이 서비스는 한 달 만에 전 세계 1억 명이 써 보면서 AI가 대중에게 각인되는 결정적 순간을 만들었다.

ChatGPT가 연 새로운 물결을 '생성형 AI'라고 부른다. 텍스트는 물론 컴퓨터 코드, 이미지, 영상, 음성까지 만들어낸다는 뜻이다. 텍스트 생성 분야에는 ChatGPT 외에도 마이크로소프트의 코파일럿(옛 빙 챗), 구글 바드, 앤트로픽의 Claude, 메타와 x.com의 모델 등 거의 모든 대기업이 자체 모델을 내놓았다.

텍스트를 만드는 이 모델들을 대규모 언어모델(LLM)이라 한다. 수개월에서 수년 동안 방대한 텍스트로 학습하며, 본질적으로는 '어떤 단어 다음에 올 단어를 추측'하는 거대한 추측 기계다. 학습에는 수천만 달러가 들기 때문에 주로 대기업이 만든다. 초기 학습으로 만들어진 것을 파운데이션 모델이라 하고, 이후 미세조정(파인튜닝)을 거쳐 특정 성격이나 전문 지식을 갖추게 된다.

사업 모델은 갈린다. 메타의 라마는 오픈소스로 풀려 누구나 무료로 앱을 만들 수 있고, 오픈AI의 GPT와 앤트로픽의 Claude는 API로 비용을 받고 기술을 제공한다. 다만 일반 사용자는 API를 몰라도 되고, 무료 버전이나 월 20달러 유료 버전을 그냥 쓰면 된다. 유료는 보통 더 많은 데이터로 학습된 최신·고성능 버전을 제공한다.

실생활 활용은 이메일 작성, 교정·문체 변경, 번역, 브레인스토밍, 표·스프레드시트 작성, 코드 생성, 화면 캡처를 코드로 변환, PDF 분석 등 무궁무진하다. 작업 성격에 따라 모델을 골라 쓰는 것이 좋은데, 검색·웹 탐색이 많으면 바드나 코파일럿이, 글쓰기 중심이면 ChatGPT가 더 나을 수 있다.

생성형 AI의 또 다른 축은 확산모델이다. 텍스트가 아니라 이미지와 소리로 학습해, 프롬프트로 이미지·영상·음성을 만든다. 이미지에는 미드저니와 오픈AI의 달리, 오픈소스인 스태빌리티AI의 스테이블 디퓨전이 있고, 영상에는 런웨이·카이버·피카, 음성에는 사람 같은 목소리를 만드는 일레븐랩스와 영상까지 복제하는 헤이젠 등이 있다.

주요 인사이트

생성형 AI는 'AI'라는 큰 범주 안에서 텍스트를 만드는 LLM과 이미지·영상·음성을 만드는 확산모델로 나눠 이해하면 쉽다.
LLM의 '지능'은 사실 방대한 학습으로 다음 단어를 정교하게 추측하는 능력에서 나온다.
오픈소스(라마, 스테이블 디퓨전)와 API·유료 모델(GPT, Claude)이라는 서로 다른 사업 모델이 생태계를 떠받친다.
한 모델만 고집하지 말고 작업 성격에 맞춰 여러 무료 모델을 시험해 보는 것이 유리하다.
월 20달러 유료 버전은 보통 더 많은 데이터로 학습된 고성능 모델과 더 많은 기능을 제공한다.

자주 묻는 질문

생성형 AI와 대규모 언어모델(LLM)은 어떤 관계인가?

생성형 AI는 텍스트·이미지·영상·음성을 만들어내는 AI의 큰 범주이고, 그중 텍스트를 생성하는 모델들이 대규모 언어모델(LLM)이다. LLM은 생성형 AI라는 큰 분류 안에 들어간다.

대규모 언어모델은 어떻게 작동하나?

수개월에서 수년간 방대한 텍스트로 학습한 뒤, 어떤 단어 다음에 어떤 단어가 올지 정교하게 추측하는 방식으로 답을 만들어낸다. 학습에는 수천만 달러가 들어 주로 대기업이 만든다.

이미지나 영상은 어떤 기술로 만드나?

확산모델(diffusion model)이라는 별도 기술이 담당한다. 텍스트가 아니라 이미지와 소리로 학습되며, 미드저니·달리·스테이블 디퓨전(이미지), 런웨이·카이버·피카(영상), 일레븐랩스(음성) 같은 도구가 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗