AI VIDEO BRIEFING

추론형 LLM 완벽 정리: o1·DeepSeek-R1은 어떻게 생각하도록 훈련되는가

o1·DeepSeek-R1 같은 추론형 LLM은 혁신적 신기술이 아니라 훈련 방식의 차이일 뿐이다. 추론 모델을 만드는 네 가지 접근법과 규칙 기반 강화학습, DeepSeek-R1의 단계별 학습 과정을 정리했다.

출처: Donato Capitella2025년 3월 15일AI 보조 요약

추론형 LLM의 정체: o1·DeepSeek-R1은 어떻게 ‘생각’하도록 훈련되는가 영상 대표 이미지

핵심 메시지

추론형 LLM은 완전히 새로운 AI가 아니라, 여전히 토큰을 하나씩 예측하는 LLM이며 차이는 ‘추론에 맞춘 훈련 방식’에 있다.
세바스찬 라쉬카의 글에 따라, 추론 모델을 만드는 길은 추론 시간 스케일링·순수 강화학습·지도 미세조정과 강화학습 결합·증류의 네 가지로 나뉜다.
추론 시간 스케일링은 재훈련 없이 추론 단계에서 연산을 더 써 성능을 높이는 방법으로, ‘단계별로 생각하라’는 사고 사슬 프롬프트와 다수결·빔 서치가 대표적이다.
DeepSeek은 R1-Zero 실험에서 지도 미세조정을 건너뛰고 규칙 기반 보상과 GRPO만으로 강화학습해, 학습 데이터 없이도 추론 패턴이 ‘창발’함을 보였다.
거대한 R1의 능력은 라마·Qwen 같은 작은 모델에 증류로 옮길 수 있어, 작은 모델도 합리적인 추론 성능을 낼 수 있다.

쉽게 이해하기

2024년 9월 오픈AI의 o1이 등장하며 AI 추론의 근본적 전환이라는 평가가 나왔지만, 몇 달 만에 구글의 제미나이 싱킹, 딥시크의 R1, xAI의 Grok 3 등이 비슷한 모델을 내놓았다. 발표자는 이것이 도달 불가능한 돌파구가 아니라 기존 기술의 반복적 진전임을 보여준다고 말한다.

추론 모델이 필요한 이유는 과제의 성격에 있다. ‘티라미수 기본 레시피’처럼 사실만 끌어오면 되는 질문에는 추론이 필요 없지만, ‘3만5천 피트에서 분당 1,800피트로 하강해 3천 피트에 도달하려면 언제 하강을 시작해야 하는가’ 같은 문제는 단계별 논리 계산, 즉 사고 사슬(Chain of Thought)이 필요하다.

첫째 접근법인 추론 시간 스케일링은 구조나 재훈련 없이 추론할 때 연산을 더 쓰는 방식이다. ‘단계별로 생각하라’는 프롬프트로 정확도를 높이거나, 여러 답을 생성해 다수결·빔 서치로 가장 그럴듯한 답을 고른다. 어떤 LLM에도 적용할 수 있고 추가 훈련이 필요 없다.

둘째·셋째 접근법은 훈련에 손을 댄다. DeepSeek은 R1-Zero에서 6,710억 파라미터의 V3 기반 모델에 지도 미세조정을 생략하고, 정답을 자동 검증할 수 있는 수학·코딩 문제로 ‘정확도 보상’과 ‘형식 보상’을 주는 규칙 기반 강화학습(GRPO)을 적용했다. 그 결과 사고 사슬 데이터 없이도 추론 행동이 창발했고 AIME 점수가 15.6%에서 다수결 적용 시 86.7%까지 올랐다.

다만 R1-Zero는 가독성이 낮고 언어가 뒤섞이는 문제가 있어, DeepSeek은 ‘콜드 스타트’ 데이터로 지도 미세조정을 다시 넣고 일관성 보상을 더했다. 이어 60만 개 추론 예시와 20만 개 비추론 예시로 2차 미세조정한 뒤 규칙 기반·인간 선호 보상을 결합한 최종 강화학습을 거쳐 R1을 완성했다. 넷째 접근법인 증류는 R1의 80만 샘플로 라마·Qwen을 미세조정해, 작은 모델도 강력한 추론 성능을 갖게 했다.

주요 인사이트

추론형 모델의 차별점은 아키텍처가 아니라 훈련이다. 특히 수학·코딩처럼 정답을 검증할 수 있는 영역에서 ‘규칙 기반 강화학습’을 쓰는 점이 인간 피드백 기반 강화학습과 다르다.
DeepSeek-R1-Zero는 지도 미세조정 없이 강화학습만으로도 추론 패턴이 창발할 수 있음을 입증했지만, 가독성과 언어 혼용 문제 때문에 결국 지도 미세조정이 다시 도입됐다.
증류는 비용 효율적인 추론 모델을 만드는 효과적 방법이다. 증류된 Qwen 7B가 여러 벤치마크에서 GPT-4o를 앞섰고, 32B·70B 모델은 o1-mini를 능가하기도 했다.
발표자는 추론 모델조차 본질적으로 ‘외삽’이 아니라 ‘내삽’을 하는 패턴 매처라는 점을 강조한다. 강력하지만, 인간 수준·박사급 추론이라는 과장은 핵심을 놓친다는 것이다.

자주 묻는 질문

추론형 LLM은 기존 LLM과 근본적으로 다른가요?

아니요. 추론형 LLM도 여전히 토큰을 하나씩 예측하는 LLM이며 GPT·트랜스포머 구조 위에 세워집니다. 차이는 추론 과제에 맞춰 강화학습 등으로 훈련한다는 점에 있습니다.

DeepSeek-R1-Zero 실험의 핵심은 무엇인가요?

지도 미세조정을 완전히 건너뛰고, 수학·코딩처럼 정답을 자동 검증할 수 있는 문제에 정확도·형식 보상을 주는 규칙 기반 강화학습(GRPO)만으로 학습한 것입니다. 그 결과 사고 사슬 데이터 없이도 추론 행동이 창발했습니다.

작은 모델도 추론 능력을 가질 수 있나요?

네. 증류를 통해 가능합니다. DeepSeek은 R1을 만들 때 쓴 80만 개 샘플로 라마·Qwen 같은 작은 모델을 미세조정했고, 추가 강화학습 없이도 일부 벤치마크에서 훨씬 큰 모델을 능가하는 성능을 얻었습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗