AI VIDEO BRIEFING

AI 모델 종류 총정리: ChatGPT·클로드·제미나이·그록과 이미지·영상·코딩·오디오 모델

ChatGPT·클로드·제미나이·그록 같은 프런티어 모델부터 오픈소스, 이미지·영상·월드 모델, 코딩 에이전트, 오디오 모델까지 — 지금 쓸 수 있는 AI 모델의 종류와 각자의 강점을 입문자 눈높이로 정리한다.

출처: Matthew Berman2026년 3월 16일AI 보조 요약

ChatGPT부터 클로드·제미나이까지, AI 모델 종류 한눈에 정리 영상 대표 이미지

핵심 메시지

주요 프런티어 챗봇은 ChatGPT·클로드·제미나이·그록 네 가지이며, 영상은 각 연구소가 가장 잘하는 분야가 다르다고 정리한다 — 구글(제미나이)은 검색, 앤트로픽(클로드)은 업무·코딩, OpenAI(ChatGPT)는 사용 편의성이다.
제미나이는 구글 자체 칩으로 빠르고, 업로드한 동영상을 프레임 단위로 이해하는 기능을 다른 모델에는 없는 강점으로 가지며, 'Nano Banana' 이미지 생성과 딥 리서치에 강하다.
오픈소스 모델(Llama, DeepSeek, Qwen, GPT-OSS, Nemotron, Gemma 등)은 로컬 실행·프라이버시·통제·사실상 무료라는 장점이 있지만 기술적 진입장벽이 있고 프런티어 모델만큼 성능이 좋진 않으며, 그래도 대다수 사용 사례에는 충분하다.
이미지(Nano Banana 2, 미드저니, 스테이블 디퓨전 등), 영상(Sora 2, Veo 3, Runway, Kling), 상호작용 가능한 월드 모델(Genie 2, Marble, 테슬라 FSD, 엔비디아 Cosmos)까지 생성 모델의 범위가 넓어지고 있다.
코딩 에이전트(커서, 클로드 코드, Codex, Devin, Factory)와 오디오 모델(일레븐랩스 음성 복제, OpenAI 보이스 모드, Suno·Udio 음악)도 빠르게 발전 중이며, 특히 프로그래밍이 AI의 영향을 가장 크게 받은 분야로 꼽힌다.

쉽게 이해하기

이 영상은 지금 쓸 수 있는 인공지능 모델의 종류를 입문자 눈높이에서 훑는다. 가장 먼저 ChatGPT다. 텍스트를 넣으면 텍스트가 나오는 대규모 언어 모델로, 글쓰기·코딩·웹 검색·질의응답은 물론 이미지 생성, PDF 분석, 음성까지 폭넓게 처리하는 범용 모델이다. 무료 등급부터 월 8달러 Go, 고급 추론 모델을 쓰는 Plus, 월 200달러 Pro까지 여러 요금제가 있으며, 웹·데스크톱·모바일 어디서나 쉽게 쓸 수 있어 '고민 없이 강력한 AI를 쓰고 싶을 때' 좋은 선택으로 소개된다.

다음은 앤트로픽의 클로드다. 이미지 생성 같은 일부 기능은 없지만, 발표자를 포함해 많은 이들이 종합적으로 가장 뛰어난 모델로 꼽으며 특히 코딩과 글쓰기, 엑셀·워드 문서 작업과 대용량 데이터 분석에 강하다. 지메일·노션·피그마·슬랙 등 다양한 도구·통합을 연결할 수 있고, 'AI 티가 나는 문장'을 다듬는 휴머나이저 같은 '스킬'로 동작 방식을 정의할 수도 있다. 무료 등급도 넉넉하지만 최상위 모델은 유료에서 열리며, 발표자는 월 20달러만 내도 활용 범위가 크게 넓어진다고 강조한다.

구글의 제미나이는 자체 칩 덕에 매우 빠르고, 한때 가장 컸던 컨텍스트 창은 이제 클로드·ChatGPT와 함께 100만 토큰 수준이다(토큰은 대략 단어의 4분의 3 정도). 무엇보다 다른 모델에는 없는 '동영상 이해' 기능이 특징으로, 업로드한 영상을 프레임 단위로 보고 특정 장면에 대한 질문에 답한다. 'Nano Banana'로 불리는 이미지 생성, 구글 제품과의 손쉬운 연동, 강력한 웹 검색, 그리고 여러 자료를 묶어 보고서를 만드는 딥 리서치가 강점이다. 일론 머스크의 그록은 다른 프런티어 모델만큼은 아니지만 트위터(X)의 실시간 정보를 검색하는 데 특히 뛰어나 트렌드 조사에 유용하다.

좀 더 기술적인 사용자라면 내려받아 내 컴퓨터에서 돌리는 오픈소스 모델이 있다. 로컬 실행, 데이터가 밖으로 나가지 않는 프라이버시, 미세조정·강화학습 같은 통제권, 사실상 하드웨어와 전기료만 드는 비용이 장점이다. 다만 설정이 다소 복잡하고 프런티어 모델만큼 성능이 좋진 않은데, 발표자는 그래도 95% 사용 사례에는 충분하다고 본다. 최초의 로컬 실행 오픈소스였던 메타의 Llama는 이후 다소 뒤처졌고, 지금은 중국 연구소의 DeepSeek·MiniMax·Qwen을 비롯해 OpenAI의 GPT-OSS, 엔비디아의 Nemotron, 구글의 Gemma 등 선택지가 많다.

생성 모델의 범위도 넓다. 이미지에서는 발표자가 가장 좋아하는 Nano Banana 2를 비롯해 미드저니, (현재 ChatGPT 이미지로 불리는) DALL-E, 오픈소스인 스테이블 디퓨전, Flux, Ideogram 등이 있고, 이미지 모델은 텍스트 모델보다 로컬에서 고품질로 돌리기 쉽다. 영상에서는 Sora 2(OpenAI는 이를 중심으로 소셜 네트워크까지 만들었다), Veo 3, Runway Gen 4, Kling이 꼽히고, 게임처럼 상호작용하며 세계를 시뮬레이션하는 월드 모델로는 구글 Genie 2, World Labs의 Marble, 그리고 넓게 보면 테슬라 FSD와 엔비디아 Cosmos가 거론된다. 코딩은 AI의 영향이 가장 큰 영역으로, 프런티어 모델에 도구·실행 환경을 붙인 '하니스' 형태의 커서, 클로드 코드, Codex, Devin, Factory가 있다. 끝으로 오디오에서는 음성 복제의 일레븐랩스, 말로 대화하는 OpenAI 보이스 모드, 한 줄 프롬프트로 노래를 만드는 Suno·Udio까지 음성·음악·효과음을 아우른다.

주요 인사이트

각 AI 연구소는 잘하는 영역이 갈린다 — 구글(제미나이)은 검색, 앤트로픽(클로드)은 업무·코딩, OpenAI(ChatGPT)는 사용 편의성이 강점이라는 게 영상의 정리다.
제미나이의 '동영상 프레임 단위 이해'처럼, 같은 챗봇처럼 보여도 모델마다 고유 기능이 있어 용도에 맞춰 골라야 한다.
오픈소스 모델은 프런티어 모델보다 성능은 떨어져도 로컬 실행·프라이버시·통제·저비용이라는 분명한 이점이 있고, 대다수 사용 사례에는 충분하다.
이제 AI는 텍스트를 넘어 이미지·영상·월드 모델·코딩·오디오로 확장됐고, 특히 프로그래밍은 코딩 에이전트(커서·클로드 코드·Codex 등) 덕에 가장 크게 바뀐 분야로 꼽힌다.
무료 등급으로도 많은 걸 할 수 있지만 최상위 성능은 유료 구독에서 열린다 — 발표자는 월 20달러 정도만 써도 활용 범위가 크게 넓어진다고 본다.

자주 묻는 질문

ChatGPT, 클로드, 제미나이, 그록은 각각 어떤 강점이 있나?

영상에 따르면 ChatGPT는 다양한 기능과 사용 편의성, 클로드는 코딩·문서 작업 등 업무, 제미나이는 빠른 속도·동영상 이해·웹 검색·딥 리서치, 그록은 트위터(X)의 실시간 정보 검색에 강하다.

오픈소스 모델의 장단점은?

장점은 내 컴퓨터에서 돌리는 로컬 실행, 데이터가 밖으로 나가지 않는 프라이버시, 미세조정 등 높은 통제권, 사실상 하드웨어·전기료만 드는 비용이다. 단점은 설정이 더 기술적이고 프런티어 모델만큼 성능이 좋진 않다는 점이지만, 발표자는 95% 사용 사례에는 충분하다고 본다.

월드 모델(world model)이란 무엇인가?

영상처럼 보이지만 비디오 게임처럼 직접 상호작용하며 세계를 시뮬레이션하는 모델로, 구글 Genie 2와 World Labs의 Marble이 예다. 넓게 보면 현실 주행을 돕는 테슬라 FSD나 물리 AI 시뮬레이션용 엔비디아 Cosmos도 여기에 포함된다.

코딩 에이전트는 어떻게 작동하나?

프런티어 모델의 지능에 코드베이스를 탐색하고 코드를 작성·실행·테스트할 도구를 묶은 '하니스'를 씌운 것으로, 커서·클로드 코드·Codex·Devin·Factory 등이 있다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗