AI VIDEO BRIEFING

스노클·UC버클리 연구: 4B 모델이 235B를 이긴 비결은 추론이 아니라 '도구 사용'

스노클이 UC버클리와 함께 금융 분석 도구 사용 과제에서 40억 파라미터 모델로 2350억 모델을 능가했다. 핵심은 더 큰 추론이 아니라 강화학습으로 가르친 '도구 사용 규율'이었다.

출처: AI Engineer2026년 6월 10일AI 보조 요약

모델을 키우지 말고 '행동'을 가르쳐라: 40억 모델이 2350억 모델을 이긴 법 영상 대표 이미지

핵심 메시지

스노클은 UC버클리 RLLM(Agentica) 팀과 함께 금융 분석 도구 사용 과제에서 40억(4B) 파라미터 모델이 2350억(235B) 모델을 능가하게 만들었다.
거대한 235B 추론 모델은 환경을 살피지 않고 존재하지 않는 테이블에 쿼리를 던지다 결국 답을 지어냈다(환각). 문제는 추론력이 아니라 도구를 쓰는 '규율'이었다.
강화학습(GRPO)으로 미세조정한 4B 모델은 먼저 테이블 목록을 조회하고 스키마를 확인한 뒤 쿼리하고, 오류가 나면 스스로 컬럼을 고쳐 정답을 찾았다.
전용 FinQA 환경에서 진행한 RL 작업은 21~24시간, 1회 실행당 500달러 미만으로, pass@1 성능이 약 두 배로 올랐다. 비싸지 않게 의미 있는 성능 향상이 가능하다.
흥미롭게도 단일 테이블 학습만으로 가장 큰 향상이 났고, 더 어려운 다중 테이블 벤치마크 성능까지 13.9%에서 26.6%로 함께 올라 일반화됐다.

쉽게 이해하기

스노클의 개발자 애드보킷 코비 크로퍼드는 '모델을 더 키우지 말라'는 도발적인 제목을 내건다. 물론 모델이 본질적으로 작아야 한다는 뜻은 아니다. 적절한 데이터를 올바른 문제에 적용하면 큰 이득을 얻을 수 있다는 것이 요지다. 스노클은 스스로를 '프런티어 AI 데이터 랩'이라 부르며, 전문가를 과정에 참여시켜 고품질 데이터셋을 만들고 이를 상위 랩들의 모델 개선에 제공한다.

이번 연구의 목표는 분명하다. 금융 분석을 위한 도구 사용 과제에서 40억 파라미터 모델이 2350억 파라미터 모델을 능가하게 만드는 것이다. 그는 기업 현장에서 흔히 '성능이 안 나오면 더 큰 모델을 끼워 넣으면 된다'고 가정하지만, 비용·속도·보안, 그리고 온프레미스 배포와 데이터 통제 같은 이유로 더 작은 모델을 쓸 수 있다면 그쪽이 나을 때가 많다고 말한다. 그래서 작은 모델에 올바른 데이터로 RL을 적용해 원하는 성능을 끌어내는 것이 이번 시도다.

왜 RL인가. 크로퍼드는 RL이 모델의 핵심 지식을 바꾸기보다 '행동'을 바꾸는 데 적합하다고 본다. 그는 거대 모델을 호두 까는 데 큰 망치를 쓰는 격에 비유하며, UC버클리 RLLM 팀이 말한 '테런스 타오 효과'를 인용한다. 타오처럼 모든 수학을 다루는 천재성이 있어도, 금융 분석가에게 실제로 필요한 것은 SQL로 데이터를 가져와 더하고 빼는 일이지 모든 종류의 수학이 아니라는 것이다. 더 똑똑한 모델이나 더 깊은 추론이 항상 답은 아니라는 주장이다.

실제로 235B 추론 모델에게 '23년 대비 24년 유튜브 광고 매출의 전년 대비 성장률'을 물었더니, 환경과 도구를 살펴 어떤 테이블을 쓸 수 있는지 확인하지 않은 채 존재하지 않는 테이블에 쿼리를 던졌다. 아무것도 못 받자 또 추측하고, 두 번 다 실패하자 결국 답을 지어냈다. 추론력은 뛰어났지만 도구를 써야 할 때 그 능력이 도움이 되지 못했다. 반면 같은 데이터셋으로 미세조정한 4B 모델은 먼저 '테이블 이름 가져오기' 도구로 사용 가능한 테이블을 찾고, 스키마를 확인한 뒤 쿼리했다. 잘못된 컬럼을 요청해 오류가 나자 스스로 관찰해 올바른 컬럼으로 교정하며 정답에 도달했다. 같은 도구가 큰 모델에도 있었지만 그저 시도하지 않았을 뿐이다.

방법은 평범하다. 전문가가 참여해 만든 고품질 데이터셋을 검증한 뒤, GRPO와 RLLM 프레임워크, 자체 제작한 FinQA 환경으로 RL을 돌렸다. 이 환경은 외부 의존성 없이 자족적이며 PrimeIntellect·OpenEnv·허깅페이스에 공개돼 있다. 작업은 21~24시간, 1회당 500달러 미만이었고 pass@1은 약 두 배가 됐다. 더 흥미로운 발견은 학습 구성 실험이다. 단일 테이블만, 다중 테이블 혼합, 커리큘럼 학습을 비교했더니 '단일 테이블만' 학습이 가장 큰 향상을 냈고, 그럼에도 더 어려운 다중 테이블 벤치마크 성능까지 13.9%에서 26.6%로 함께 올랐다. 결국 추론이 아니라 도구 사용 규율이 관건이었고, 핵심 실패 모드 하나를 고치자 다른 문제로도 일반화됐다는 것이다. 그는 평가에 '루브릭'을 써서 어떤 행동이 문제인지 분해해 찾는 스노클의 방식도 함께 소개한다.

주요 인사이트

성능이 안 나올 때 더 큰 모델을 끼워 넣는 기본 반응이 늘 옳지는 않다. 비용·속도·보안·온프레미스·데이터 통제를 고려하면 올바른 데이터로 RL한 소형 모델이 더 나은 선택일 수 있다.
거대 추론 모델의 실패는 '못 풀어서'가 아니라 '도구를 쓸 줄 몰라서'였다. 환경을 살펴 테이블을 찾고 스키마를 확인하는 규율이 없으면, 뛰어난 추론력도 환각으로 귀결된다.
RL은 모델의 핵심 지식이 아니라 '행동'을 바꾸는 데 적합하다. 그래서 도구 발견과 오류 자기교정 같은 행동을 가르치는 데 효과적이며, GRPO로 21~24시간·500달러 미만으로도 성능을 두 배로 끌어올렸다.
단일 테이블 학습만으로 가장 큰 향상이 났고 다중 테이블 과제까지 일반화됐다는 점은, 더 많고 어려운 데이터가 아니라 '핵심 실패 행동'을 정확히 겨냥하는 것이 중요함을 보여준다.
평가에 루브릭을 도입해 정답/오답을 여러 하위 질문으로 분해하면, RL에는 단일 값을 쓰면서도 어떤 행동을 위한 데이터가 필요한지 풍부한 피드백으로 진단할 수 있다.

자주 묻는 질문

이 연구의 핵심 결과는 무엇인가요?

금융 분석을 위한 도구 사용 과제에서, 강화학습으로 미세조정한 40억 파라미터 모델이 2350억 파라미터 모델을 능가했습니다. pass@1 성능이 약 두 배로 올랐고, 1회 RL 실행 비용은 500달러 미만이었습니다.

큰 모델은 왜 실패했나요?

235B 추론 모델은 환경과 도구를 살피지 않고 존재하지 않는 테이블에 쿼리를 던졌고, 두 번 실패하자 답을 지어냈습니다. 추론력은 뛰어났지만 도구를 쓰는 규율이 없었던 것이 문제였습니다.

작은 모델은 어떻게 정답을 찾았나요?

미세조정된 4B 모델은 먼저 '테이블 이름 가져오기' 도구로 사용 가능한 테이블을 찾고, 스키마를 확인한 뒤 쿼리했습니다. 잘못된 컬럼으로 오류가 나자 스스로 교정해 올바른 컬럼을 찾아 정답에 도달했습니다. 같은 도구가 큰 모델에도 있었지만 시도하지 않았을 뿐입니다.

단일 테이블 학습이 더 나았다는 점은 무엇을 시사하나요?

단일 테이블만 학습한 구성이 가장 큰 향상을 냈고, 더 어려운 다중 테이블 벤치마크 성능까지 13.9%에서 26.6%로 함께 올랐습니다. 핵심 실패 행동(도구 사용)을 정확히 고치면 다른 과제로도 일반화된다는 점을 보여줍니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗