AI VIDEO BRIEFING

대형 추론 모델(LRM)이란? LLM과의 차이와 작동 원리 정리

다음 단어를 예측하는 LLM과 달리, 답하기 전에 계획하고 검증하는 대형 추론 모델(LRM)의 작동 원리와 학습 방법, 추론 시점 연산의 비용과 이득을 IBM 영상으로 풀어봅니다.

출처: IBM Technology2025년 11월 6일AI 보조 요약

생각하고 답하는 AI, 대형 추론 모델(LRM)은 LLM과 무엇이 다른가 영상 대표 이미지

핵심 메시지

LLM이 통계적으로 다음 토큰을 예측한다면, 대형 추론 모델(LRM)은 답하기 전에 계획을 세우고 선택지를 따져보며 계산을 검증한다.
LRM은 기존 LLM 위에 논리 퍼즐·다단계 수학·까다로운 코딩 같은 추론 중심 데이터로 추가 학습(파인튜닝)해 만들어진다.
강화학습(RLHF·과정 보상 모델)과 증류(distillation)로 단계별 사고 사슬을 잘 만들어내도록 훈련한다.
추론 시점(test-time) 연산을 늘리면 정확도는 오르지만 지연 시간과 비용도 함께 늘어나므로 문제에 따라 사고 시간을 다르게 배분한다.
LRM은 복잡한 다단계 추론에 강하고 프롬프트 엔지니어링 부담이 적지만, 더 많은 연산·메모리·전력과 느린 응답이라는 대가가 따른다.

쉽게 이해하기

LLM(대규모 언어 모델)은 통계적 패턴 매칭으로 시퀀스의 다음 토큰을 예측하며 사람처럼 보이는 텍스트를 만들어낸다. LRM(대형 추론 모델)은 여기서 한발 더 나아가 "말하기 전에 생각한다." 프롬프트를 받으면 곧장 토큰을 뱉는 LLM과 달리, LRM도 토큰을 생성하긴 하지만 먼저 계획을 스케치하고 선택지를 저울질하며 샌드박스에서 계산을 재확인한 뒤 답을 만든다.

이런 추가 단계가 항상 필요한 것은 아니다. 가벼운 소셜 미디어 글쓰기라면 LLM의 반사적 답변으로 충분하다. 그러나 까다로운 스택 트레이스 디버깅이나 여러 유령 회사를 거친 현금 흐름 추적처럼 복잡한 문제에서는, LRM의 내부 사고 사슬(chain of thought)이 가설을 시험하고 막다른 길을 버리며 논리적으로 추론된 답에 도달하게 해준다.

LRM을 만드는 과정은 대개 대규모 사전학습을 마친 기존 LLM에서 출발한다. 사전학습으로 언어 능력과 폭넓은 지식 기반을 갖춘 뒤, 추론에 초점을 맞춘 전문 튜닝을 거친다. 논리 퍼즐·다단계 수학·코딩 과제를 완전한 사고 사슬 정답과 함께 학습시켜 "풀이 과정을 보여주는" 법을 익히게 한다. 문제를 받아 해결 계획을 세우고, 여러 단계로 실행한 뒤 해답에 도달하는 흐름이다.

그다음에는 새로운 문제를 직접 풀게 하며 강화학습을 적용한다. 사람이 각 단계에 좋고 나쁨을 평가하는 RLHF, 또는 각 추론 단계를 심판하는 과정 보상 모델(process reward model)이 보상을 준다. 모델은 이 보상을 최대화하는 사고 흐름을 만들도록 학습해 논리적 일관성을 높인다. 또한 더 큰 교사 모델이 만든 추론 흔적을 작은 모델 학습에 쓰는 증류(distillation) 기법도 함께 활용된다.

학습을 마친 모델에는 실행 시점에 얼마만큼의 "생각 시간"을 줄지가 또 다른 변수다. 이것이 추론 시점(inference/test-time) 연산이다. 질문마다 사고 예산을 달리 배분해, 어떤 질문에는 여러 사고 사슬을 돌려 가장 좋은 것에 투표하고, 막히면 트리 탐색으로 되돌아가며, 계산기·데이터베이스·코드 샌드박스 같은 외부 도구를 호출한다. 다만 각 추가 연산은 더 많은 비용과 지연을 부르므로, 정확도 향상이 그 비용만큼의 가치가 있는지는 풀려는 문제에 달려 있다.

주요 인사이트

LRM의 핵심 차별점은 "추론을 학습"한다는 데 있다. 단순히 통계적으로 그럴듯한 패턴을 따르는 대신, 계획→실행→검증의 단계를 거쳐 답을 만든다.
추론 능력은 공짜가 아니다. 매번의 추가 연산이 추론 시점 연산 비용, 즉 더 많은 GPU 사용과 더 긴 지연 시간으로 돌아온다.
LRM은 "단계별로 생각하자" 같은 마법의 문구를 프롬프트에 넣을 필요가 적다. 모델이 이미 그 과정을 내장하고 있어 프롬프트 해킹이 줄어든다.
문제 성격에 따라 일반 LLM이나 더 작은 모델이 오히려 나을 수 있다. 간단한 작업에 LRM의 높은 연산 비용과 지연을 감수할 이유는 없다.
오늘날 AI 벤치마크에서 가장 높은 점수를 내는 가장 똑똑한 모델들은 대체로 추론 모델, 즉 LRM인 경향이 있다.

자주 묻는 질문

LRM과 LLM의 가장 큰 차이는 무엇인가요?

LLM은 통계적으로 다음 토큰을 예측해 곧장 답을 내지만, LRM은 답하기 전에 계획을 세우고 선택지를 따지며 계산을 검증하는 추론 단계를 거칩니다.

LRM은 어떻게 만들어지나요?

대규모 사전학습을 마친 기존 LLM에서 출발해, 사고 사슬 정답이 달린 논리·수학·코딩 데이터로 추론 중심 파인튜닝을 하고, RLHF·과정 보상 모델 같은 강화학습과 증류 기법으로 다듬습니다.

추론 시점 연산(test-time compute)이란 무엇인가요?

질문을 받을 때 모델에 부여하는 사고 시간입니다. 여러 사고 사슬을 돌려 투표하거나 트리 탐색으로 되돌아가고 외부 도구를 호출할 수 있으며, 늘릴수록 정확도는 오르지만 비용과 지연도 커집니다.

항상 LRM을 쓰는 게 좋은가요?

아닙니다. 복잡한 다단계 추론에는 유리하지만, 간단한 작업에는 더 많은 연산·전력·지연이라는 대가 때문에 일반 LLM이나 작은 모델이 더 나을 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗