AI VIDEO BRIEFING

스케일링의 느린 죽음: 사라 후커가 짚는 거대 AI 모델의 한계와 적응형 지능의 부상

어댑션 랩스 공동창업자 사라 후커가 '무조건 큰 모델' 경쟁이 수익 체감 구간에 들어섰다고 진단한다. 작은 모델이 큰 모델을 앞서는 사례, 가중치 중복, 사후학습과 테스트타임 연산으로 옮겨가는 흐름을 근거로 적응형 지능의 시대를 설명한다.

출처: Hugging Face2026년 5월 21일AI 보조 요약

'스케일링의 느린 죽음': 사라 후커가 말하는 거대모델 이후의 AI 영상 대표 이미지

핵심 메시지

지난 10년의 'AI는 클수록 좋다' 경쟁은 이제 수익 체감 구간에 접어들었고, 사전학습 모델 크기를 키우는 투자 대비 효과가 급감했다.
같은 크기에서 모델 성능이 계속 좋아지고 작은 모델이 큰 모델을 자주 앞서며, 신경망 가중치의 상당수는 중복이라 학습 후 제거해도 성능 저하가 미미하다.
이제 수익률이 높은 곳은 사전학습이 아니라 사후학습(post-training)·테스트타임 스케일링·적응형 연산이며, '연구의 시대'가 다시 열렸다.
후커의 어댑션 랩스는 모델이 세상과 상호작용하며 실시간으로 배우는 '지속 학습·적응'에 집중한다.
하드웨어가 행렬 곱에 과최적화된 '하드웨어 로또' 탓에 대안 아키텍처가 성공하기 어렵고, 이것이 트랜스포머 대체를 늦춘다.

쉽게 이해하기

후커는 현재 AI가 '가장 좋은 모델 하나를 만들어 모두에게 똑같이 배포하는' 단일 거대모델 중심이라고 지적한다. 이 방식은 두 가지 단점을 낳는다. 사용자에게 프롬프트 엔지니어링이라는 곡예를 강요하고, 문제의 난이도와 상관없이 늘 같은 연산을 소모해 비효율적이다. 그는 비행기에서 ChatGPT로 만든 자기소개 슬라이드가 틀렸던 일화로 이 '정적 지능'의 한계를 꼬집는다.

이 흐름의 배경에는 리처드 서턴의 '쓰라린 교훈'이 있다. 결국 연산을 잘 활용하는 것만이 장기적으로 중요하다는 주장이다. 이 믿음은 GPU 부자·빈자라는 구도, 소수 랩으로의 인재·자원 집중, 연산의 국가 우선순위화를 낳았다. 후커는 이 통념에 정면으로 반대한다.

그는 여러 반증을 제시한다. 같은 크기에서도 모델 성능이 꾸준히 좋아졌고, 작은 모델이 큰 모델을 자주 앞선다(허깅페이스 리더보드의 과거 데이터). 또 작은 가중치 집합만으로 신경망 가중치의 95%를 예측할 수 있을 만큼 중복이 심해, 학습이 끝난 뒤 제거해도 성능 저하가 미미하다. 데이터 품질을 높이면 더 적은 용량으로도 충분하다.

가장 결정적인 근거는 크기를 크게 키운 최근 공개들이 실망스러웠다는 점이다. GPT-4.5는 덩치에 비해 뚜렷한 도약이 아니었고 서빙 비용 부담으로 곧 라우팅으로 대체됐으며, Llama 4나 Mythos도 서빙 비용 대비 가치가 낮다는 평을 받았다. 그래서 올해 프론티어 랩들은 모델 크기를 4배로 키우지 않을 것이라고 후커는 본다.

대신 수익률은 사후학습·테스트타임 스케일링·적응형 연산으로 옮겨갔고, '연구의 시대'가 다시 왔다. 후커의 어댑션 랩스는 모델이 세상과 상호작용하며 실시간으로 배우는 지속 학습·적응에 집중하며, 저렴해진 데이터 공간 최적화(adaptive data)와 미세조정을 자동화하는 'Auto Scientist' 등을 사례로 든다. 다만 하드웨어가 행렬 곱에 과최적화된 '하드웨어 로또' 탓에 대안 아키텍처의 성공은 여전히 어렵다.

주요 인사이트

스케일링 법칙은 '같은 조건에서 다음 학습 규모를 예측'하는 데는 유용하지만, 공개 담론에서 연산과 성능·안전을 논할 때는 대체로 부정확했다.
큰 모델이 필요한 이유는 최적화가 불안정해 수렴하려면 과다한 파라미터가 필요하기 때문이며, 작게 시작할 수 있다면 연산 대비 효과가 근본적으로 달라진다.
미세조정(커스터마이징)은 지난 몇 년간 대체로 실패했지만, 사용량 기반 과금·자동 연구·에이전트 워크플로의 오류 누적 탓에 다시 수요가 살아나고 있다.
'딸기(strawberry)의 R 개수' 문제는 토큰화 한계에서 비롯되며, 일부 랩은 규칙을 덧붙여 임시로 해결한다.
인간은 새 정보를 처리하는 효율이 여전히 뛰어나고, 사회적 신뢰에 기반해 전 지구적 업데이트(예: 코로나 봉쇄 합의)를 값싸게 해낸다.

자주 묻는 질문

'스케일링의 느린 죽음'은 무슨 뜻인가요?

모델 크기를 키우는 사전학습 방식이 수익 체감 구간에 들어서, 크기만 늘려서는 성능이 비례해 좋아지지 않게 된 상황을 뜻합니다. 스케일링 전부가 끝났다기보다 '크기 키우기'의 효용이 급감했다는 의미입니다.

그럼 이제 무엇에 투자해야 하나요?

후커는 사후학습(post-training), 테스트타임 스케일링, 적응형 연산에서 수익률이 훨씬 높다고 봅니다. 특히 모델이 세상과 상호작용하며 실시간으로 배우는 적응·지속 학습이 핵심이라고 말합니다.

가중치가 중복이라는 근거는 무엇인가요?

작은 가중치 집합만으로 신경망 전체 가중치의 95%를 예측할 수 있고, 학습이 끝난 뒤 그 가중치들을 제거해도 성능 저하가 미미하다는 연구 결과를 근거로 듭니다.

'하드웨어 로또'란 무엇인가요?

현재 하드웨어가 행렬 곱셈에 과도하게 최적화돼 있어(현대 신경망 연산의 99%), 캡슐 네트워크나 비정형 희소성 같은 대안 아이디어가 실제로 성공하기 어려운 현상을 후커가 이름 붙인 개념입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗