AI VIDEO BRIEFING

AI 2025 결산·2026 전망: 추론 모델, 중국 오픈소스, 측면 생산성까지 총정리

AI 전문 채널 'AI Explained'가 정리한 2025년 AI 10대 흐름과 2026년 5대 전망 — 추론 모델, 플레이 가능한 세계, AI 슬롭, 중국·오픈소스 모델의 추격, 측면 생산성을 짚는다.

출처: AI Explained2025년 12월 23일AI 보조 요약

AI 2025 결산과 2026 전망: 추론 모델·플레이 가능한 세계·중국 오픈 모델, 그리고 '측면 생산성' 영상 대표 이미지

핵심 메시지

2025년은 '추론 모델'의 해였다. 제미나이 3 프로 등이 벤치마크를 차례로 경신했지만, 오래 생각할수록 정확도는 오르되 답의 다양성은 줄어드는 한계도 드러났다.
데미스 하사비스는 스케일링이 '벽'에 부딪혔다는 주장을 반박하며, 수익이 0이 되는 것도 무한히 폭발하는 것도 아닌 '그 중간'의 의미 있는 개선이 계속되고 있다고 말했다.
'AI 슬롭(저질 생성물)'이 주류가 됐다. 가짜 인물의 인생 조언 영상이 240만 조회를 기록하는 등, 무엇이 진짜인지 신뢰하기 어려운 시대가 됐다.
중국·오픈웨이트 모델(GLM-4.7, 시드림 등)과 엔비디아의 오픈소스 네모트론이 선두를 바짝 따라붙으면서, 프런티어 랩이 6~12개월만 정체해도 가격·이익률이 빠르게 위협받는 구도가 됐다.
영상 제작자는 2026년의 핵심으로 '측면 생산성'을 꼽는다. 모델이 최고 전문가가 아니어도, 비전문가가 빠르게 역량을 끌어올리도록 돕는 것만으로 충분히 혁명적이라는 것이다.

쉽게 이해하기

이 영상은 AI 전문 분석 채널 'AI Explained'가 2025년 한 해의 흐름을 10가지로 정리하고 2026년을 5가지 관점으로 전망한 연말 결산이다. 제작자는 스스로를 "AI를 좇는 것 말고는 별로 하는 일이 없는 사람"이라 소개하며, 헤드라인만 보면 오해하기 쉬운 AI의 진행 상황을 이해할 틀을 제시하려 한다.

2025년의 첫 키워드는 '추론 모델'이다. 더 오래 생각하고 더 많은 토큰을 쓰는 모델들이 벤치마크를 잇달아 깼지만, 동시에 벤치마크 자체의 가치에 대한 회의와 '오래 생각하기'가 기반 모델에 이미 존재하던 추론 경로를 끌어낼 뿐이라는 한계도 보였다. 제작자는 데미스 하사비스의 발언을 인용해, 스케일링이 벽에 부딪혔다기보다 '체감 수익 감소'는 있어도 투자할 가치가 있는 개선이 이어지고 있다고 전한다.

이어 그는 구글 딥마인드의 지니 3(텍스트·이미지로 몇 분간 일관성을 유지하는 플레이 가능한 세계 생성), VO3.1·소라 2·나노 바나나 프로 등 점점 사실적이 되는 생성 미디어, 그리고 그 이면의 'AI 슬롭' 범람을 짚는다. 가짜 노인의 인생 조언 영상, 트럼프의 나토 탈퇴를 다룬 가짜 영상에 사람들이 속는 사례를 들며, 평소 딥페이크를 잘 아는 사람조차 속더라는 점을 강조한다. 반면 돌고래 소통을 해독하려는 구글의 'DolphinGemma'처럼 프런티어 모델과 무관한 고무적인 소식도 많았다고 균형을 잡는다.

후반부에서는 GPT-5를 둘러싼 오해를 다룬다. 샘 올트먼은 GPT-5를 "어떤 분야든 박사급 전문가"라 표현했지만, 제작자는 이것이 '지능을 하나의 축으로만 보는' 착각이며 기초적 환각은 여전하다고 지적한다(주간 사용자는 2월 4억 명에서 약 9억 명으로 증가). 또한 GPT-4o의 과도한 아첨 문제, 메타가 사용자 선호 점수에 최적화했다가 슈퍼인텔리전스 조직을 처음부터 재건한 사례, 중국·오픈소스 모델의 추격, 그리고 모델이 인간이 약 5시간 걸리는 과제를 절반의 확률로 해낸다는 METER '시간 지평' 벤치마크의 의미와 한계(작은 표본, 큰 오차범위, 벤치마크 게이밍 위험)를 차분히 분석한다.

마지막으로 그는 2026년을 다섯 관점으로 전망한다. ①비전문가의 역량을 끌어올리는 '측면 생산성', ②현재 방법론의 '일반성'을 둘러싼 단일 축 진영(아모데이 등) 대 무수한 벤치마크 진영의 논쟁, ③코딩 자동화와 일자리 전망(아모데이의 '12개월 내 거의 모든 코드' 주장에 대한 반론), ④자신의 예측, ⑤알파에볼브·알파소프트웨어처럼 LLM과 자동 평가·진화를 결합한 '자동화된 정보 발견'에 대한 낙관이다.

주요 인사이트

벤치마크가 유명해질수록 기업이 그 과제에 맞춰 학습해 지표를 '게이밍'할 유인이 커진다. 그래서 지표가 지수 곡선을 그려도 곧이곧대로 외삽하면 안 된다.
단일 축(스케일만으로 일반지능) 대 무한 벤치마크(모든 변수를 따로 최적화) 사이에서, 제작자는 자신의 SimpleBench 결과를 근거로 '꾸준한 중간 개선'이 현실에 가깝다고 본다.
알파에볼브가 찾아낸 데이터센터 스케줄링 개선책은 18개월째 가동되며 구글 전 세계 컴퓨트의 평균 0.7%를 회수했고, 56년 만에 행렬 곱셈 알고리즘을 개선하기도 했다.
LLM은 언어, 인쇄술, 인터넷에 이은 '정보 압축'의 다음 단계다. 결과 목록이 아니라 (불완전한) 답을 준다는 점에서 혁명적이다.
저질 데이터로 학습하면 모델 능력이 퇴화한다는 '브레인 롯' 연구처럼, 무엇을 학습시킬지 고르는 일은 안전과 지능 모두에 중요해지고 있다.

자주 묻는 질문

스케일링이 '벽'에 부딪혔다는 주장에 하사비스는 어떻게 답했나?

그는 다른 회사들의 진전이 느려 벽처럼 보였을 뿐, 자신들은 벽을 본 적이 없다고 말했다. 다만 '체감 수익 감소'는 있을 수 있으며, 이는 수익이 0이라는 뜻이 아니라 지수적 성장과 점근적 정체 사이의 의미 있는 개선 구간에 있다는 의미라고 설명했다.

'측면 생산성(lateral productivity)'이란 무엇인가?

모델이 한 분야의 최고 전문가를 능가하느냐가 아니라, 90백분위 수준만 돼도 그 분야 밖의 사람이 빠르게 역량을 끌어올리도록 돕는다는 개념이다. AI 보안 연구소 연구에서 비전문가가 프런티어 모델로 실험 프로토콜을 작성했을 때, 인터넷만 쓴 집단보다 실행 가능한 결과를 낼 확률이 약 5배 높았다.

중국·오픈소스 모델의 부상이 왜 중요한가?

오픈AI·구글·앤트로픽이 여전히 선두지만 '햄스터 쳇바퀴'처럼 계속 혁신해야 하는 처지다. 6~9개월만 진전이 더디면 GLM-4.7 같은 중국 모델이나 엔비디아 네모트론 같은 오픈 모델이 따라잡아, API·소비자 지출이 더 싼 모델로 옮겨가고 이익률이 빠르게 줄 수 있다.

제작자가 2026년 말에 대해 내놓은 구체적 예측은?

다리오 아모데이의 '2026년 말 코딩 100% 자동화'나 '모델 IQ 150 합의'는 빗나갈 것이라고 봤다. 다만 텍스트 한정으로, 해당 분야를 따로 훈련받지 않은 평균적인 사람이 프런티어 모델을 능가할 벤치마크는 내년 말이면 사라질 것이라 예측했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗