AI VIDEO BRIEFING
추론 모델 작동 원리: 사고 사슬·테스트 타임 컴퓨트·강화학습 쉽게 이해하기
요즘 주목받는 추론(생각하는) LLM이 어떻게 더 나은 답을 내는지, 사고 사슬·테스트 타임 컴퓨트·best-of-N·검증 가능한 보상 강화학습을 통해 풀어 설명합니다.

핵심 메시지
쉽게 이해하기
대형 언어 모델 중 요즘 특히 주목받는 것은 "생각하는 모델" 또는 "추론 모델"이라 불리는 부류다. 이 모델들은 답을 만들 때 더 많은 토큰을 소비하며, 그 대신 코딩·고급 수학·데이터 분석처럼 까다로운 작업에서 더 나은 결과를 낸다. 예컨대 제미나이의 추론 모델을 쓰면 최종 답과 함께 모델의 사고 흔적을 요약한 내용을 볼 수 있는데, 이는 추론 경로를 따라가도록 돕는 장치다.
출발점은 스케일링 법칙이다. 학습 데이터와 연산, 파라미터를 늘릴수록 모델 성능이 좋아진다는 관찰이다. 트랜스포머에서 이 관계가 대체로 성립해 모델을 키우고 더 많은 데이터로 학습할수록 유창하고 정교한 글을 쓰고 어려운 문제를 풀게 됐다. 그런데 학습은 절반의 이야기일 뿐이고, 실제로 사용자가 모델과 상호작용해 답을 생성하는 추론(inference) 시점에도 연산을 더 쓰면 좋아질 수 있지 않을까 하는 물음에서 테스트 타임 컴퓨트가 나왔다.
그 단서는 사고 사슬 프롬프트다. 모델에게 최종 답으로 이어지는 중간 단계를 생성하라고 시키면 복잡한 추론 문제의 정답률이 올라간다. 영상의 예시에서 모델이 답만 내도록 했을 때는 사과 개수 문제를 틀렸지만, 중간 계산 과정을 쓰게 했더니 정답을 맞혔다. LLM은 토큰을 한 번에 하나씩 순전파로 만들어내므로, 중간 단계를 더 많이 쓰게 하면 그만큼 순전파(연산)를 더 거쳐 추론할 여지가 생긴다는 직관으로 설명된다.
테스트 타임 컴퓨트는 이 개념의 다이얼을 끝까지 돌린 것이다. 가장 단순한 방식이 best-of-N으로, 같은 프롬프트로 모델을 여러 번(예: 100번) 호출해 다양한 답을 만든 뒤 가장 많이 나온 답을 돌려준다. 다만 빈도만으로 고르면 같은 오류가 반복돼 한계가 있어, 두 번째 모델을 보상(검증) 모델로 써서 각 후보에 점수를 매기고 높은 점수의 답을 고르는 더 정교한 전략을 쓸 수 있다.
정말로 긴 사고 사슬을 만들어내는 모델은 강화학습으로 만들어진다. 사전학습에서 다음 토큰 예측으로 폭넓은 이해를 갖춘 모델을, 사후학습 단계에서 검증 가능한 답(수학·코드처럼 정답을 확인할 수 있는 문제)을 풀게 하고 정답 여부를 보상으로 준다. 이렇게 하면 별도의 정답 라벨 없이도 추론에 토큰을 효과적으로 쓰는 법을 배우며, 학습이 진행될수록 사고 사슬이 길어지고 성능도 함께 오르는 현상이 나타난다. 실무에서는 지도 미세조정으로 형식을 잡아준 뒤 강화학습으로 일반화시키는 조합이 유용하다.
주요 인사이트
- "생각한다"는 것의 핵심은 답하기 전에 추론 시점의 연산을 더 효과적으로 쓰는 것이며, 사고 흔적 요약은 그 과정을 사람이 따라가도록 돕는 보조 장치일 뿐이다.
- 사고 사슬이 통하는 이유는 신비롭지 않다. 토큰을 더 만들수록 모델 가중치를 거치는 순전파가 늘어 문제를 단계로 쪼개 풀 여유가 생기기 때문이다.
- best-of-N에서 단순 빈도 투표는 정교한 문제에서 같은 실수를 반복해 정체될 수 있어, 보상 모델로 답의 질을 평가하는 편이 낫다.
- LLM 강화학습에서 에이전트는 튜닝 대상 LLM 자체이고 상태는 컨텍스트 윈도, 행동은 토큰 생성이다. 이때의 "에이전트"는 에이전틱 AI의 에이전트와는 다른 의미다.
- 검증 가능한 보상은 정답을 명확히 확인할 수 있어 모델에 모호하지 않은 피드백을 주고, "SFT는 암기하고 RL은 일반화한다"는 연구처럼 두 방식을 결합하면 새로운 변형 문제로도 일반화가 잘 된다.
자주 묻는 질문
테스트 타임 컴퓨트가 무엇인가요?
모델을 학습할 때가 아니라, 사용자의 질문에 답을 생성하는 추론(테스트) 시점에 연산을 더 투입해 성능을 끌어올리는 접근입니다. 스케일링 법칙을 추론 단계에 적용한 셈입니다.
사고 사슬 프롬프트는 왜 정답률을 높이나요?
모델에게 중간 단계를 쓰게 하면 토큰을 더 많이 생성하게 되고, 그만큼 모델 가중치를 통과하는 순전파가 늘어 문제를 작은 단계로 나눠 풀 수 있기 때문입니다.
best-of-N 방식의 한계는 무엇인가요?
같은 프롬프트로 여러 답을 만들어 가장 빈번한 답을 고르는 방식인데, 정교한 작업에서는 같은 오류가 여러 답에 반복돼 개선이 정체될 수 있습니다. 그래서 보상 모델로 점수를 매겨 고르는 전략이 보완책으로 쓰입니다.
강화학습은 추론 능력 향상에 어떻게 기여하나요?
수학·코드처럼 정답을 검증할 수 있는 문제를 모델이 풀게 하고 정답 여부를 보상으로 줍니다. 별도의 정답 풀이 라벨 없이도 토큰을 추론에 효과적으로 쓰는 법을 배우며, 학습이 진행될수록 사고 사슬이 길어지고 성능이 향상됩니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗