AI VIDEO BRIEFING
구글 I/O 분석: 제미나이 옴니·3.5 플래시와 AGI를 향한 두 가지 베팅
구글 I/O에서 공개된 제미나이 옴니와 3.5 플래시를 짚고, 월드 모델과 추론 모델로 갈리는 AGI 경로 논쟁, 그리고 모델의 ‘들쭉날쭉함’ 문제를 정리한다.

핵심 메시지
쉽게 이해하기
발표자는 여러 시간에 걸친 구글 AI 행사에서 더 큰 흐름을 보여주는 여덟 장면과, 행사 전 청취한 연구소 리더 인터뷰의 신호, 그리고 모델 능력을 다시 보게 하는 독립 논문 하나를 추린다. 큰 그림은 이렇다. 구글은 새 모델이 코딩 등에서 새로운 최전선이라고 주장하기보다, 검색창을 ‘모든 AI의 관문’으로 만들려는 전략을 보였다. 반대로 오픈AI는 채팅창을 검색의 관문으로 삼으려 한다는 것이다.
첫 장면은 ‘제미나이 옴니’다. 한때 오픈AI가 쓰던 ‘옴니(Omni)’라는 이름을 가져와, 어떤 입력이든 어떤 출력으로(오디오→비디오, 이미지→음성) 바꾸는 것을 지향한다. 이번엔 비디오 출력에 초점을 뒀고 데미스 허사비스는 이런 월드·비디오 생성기를 AGI로 가는 핵심 단계로 제시했다. 세계를 올바로 시뮬레이션할 수 있으면 세계를 이해하는 것이라는 논리다. 흥미롭게도 오픈AI는 과거 자사의 영상 생성 모델 소라를 같은 ‘AGced 디딤돌’로 불렀지만, 이후 소라 앱은 접고 기술은 내부 로보틱스 부문으로 옮겼다.
여기서 두 진영의 베팅이 갈린다. 오픈AI의 그렉 브록먼은 텍스트만으로도 자기개선을 포함한 돌파구에 ‘시야(line of sight)’가 보인다며 추론 모델 계열에 베팅한다고 말한다. 한편 같은 행사에서 양사가 같은 방향으로 움직이는 장면도 있었다. 오픈AI가 생성·편집 이미지에 구글의 워터마크 기술 SynthID를 도입하기로 했고, 구글도 국방부와 계약을 맺어 ‘합법적 군사 이용’을 허용하는 등 보조를 맞췄다.
세 번째 축은 새 대형 모델 제미나이 3.5 플래시다. 빠르고 제미나이 3.1 프로와 비슷한 성능을 보이지만, API 가격은 프로 계열과 크게 다르지 않아 ‘같은 성능에 10배 저렴’ 같은 도약은 아니다. 다만 발표자의 상식 추론 벤치마크와 금융 에이전트(Finance Agent V2), 차트 추론(Charkhive 84.2%)에서는 다른 모델을 앞서, 구글이 법률·금융 같은 전문 영역에서 최전선을 노린다는 신호로 읽힌다. 순다르 피차이는 더 싼 모델로 전환하면 비용을 크게 아낄 수 있다고 직접 권했고, 울트라 요금제 인하와 새 월 100달러 요금제도 공개됐다.
마지막으로 발표자는 70쪽 분량의 독립 논문을 소개한다. ‘다음 이야기는 완전히 거짓’이라는 단서를 붙인 문서 수천 건으로 모델을 학습시키면, 정작 모델은 그 거짓 이야기를 그대로 믿어버린다는 것이다. 부정(否定)을 제대로 이해하지 못하는 셈이다. 구글 딥마인드의 한 핵심 연구자는 이런 ‘들쭉날쭉함’이 간단히 패치할 버그가 아니라 모델이 지식을 표현·처리하는 방식에 얽힌 구조적 문제이며, 이를 과소평가하면 과학적 진보에 AI를 활용하는 데도 발목이 잡힐 것이라고 말한다. 영상은 들쭉날쭉함을 풀기 어렵다고 보는 쪽과, 재귀적 자기개선으로 곧 넘어설 것으로 보는 쪽(앤트로픽에 합류해 이 문제를 맡은 안드레이 카파시 사례)으로 갈리는 ‘갈림길’로 마무리한다.
주요 인사이트
- 구글과 오픈AI의 진짜 싸움은 ‘소비자가 검색창을 쓸지, 채팅창을 쓸지’라는 관문 경쟁으로 요약된다.
- AGI 경로에 대한 베팅이 갈린다: 세계를 시뮬레이션하는 월드 모델(구글)과 텍스트·추론 모델(오픈AI).
- 단일한 ‘만능 지능’이 모든 영역을 지배하기보다, 코딩과 법률·금융처럼 영역별로 최전선 모델이 갈리는 분기가 나타날 수 있다.
- 모델의 ‘들쭉날쭉함’은 어려운 수학은 풀면서 단어의 글자 수는 못 세는 식의 결함으로, 단순 패치로 고치기 어려운 구조적 성질일 수 있다.
- ‘이건 거짓’이라는 단서를 함께 학습시켜도 모델이 그 내용을 믿어버린다는 점은, 합성 문서 미세조정이 실제 최전선 개발에 쓰이는 만큼 더 주의 깊게 볼 대목이다.
자주 묻는 질문
이번 구글 I/O의 핵심 전략은 무엇이었나요?
최전선 성능 경쟁보다, ‘충분히 좋은’ AI를 검색창 곳곳에 통합해 검색창을 모든 AI의 관문으로 만들고 일반 소비자를 끌어오는 데 초점이 있었다고 영상은 설명합니다.
AGI를 향한 ‘두 가지 베팅’은 무엇인가요?
구글은 세계를 시뮬레이션하는 월드 모델(제미나이 옴니 등)을 AGI의 핵심 단계로 보고, 오픈AI는 텍스트·추론 모델 계열에 베팅합니다. 영상은 이 방향 차이를 핵심 갈림길로 제시합니다.
모델의 ‘들쭉날쭉함(jaggedness)’이란 무엇인가요?
어려운 과제는 잘 풀면서 쉬운 일에서 어이없이 틀리는 불균형을 말합니다. 한 논문은 ‘이건 거짓’이라는 단서를 붙여 학습시켜도 모델이 그 거짓을 믿어버리는 사례로 이를 보여주며, 딥마인드 연구자는 이를 구조적 문제로 봅니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗