AI VIDEO BRIEFING

AI 학습 vs 추론 차이 완전정리 — 사전학습·사후학습·서빙 비용까지

AI 모델이 만들어지는 학습 단계와 실제로 쓰이는 추론 단계를 구분해, GPU 수만 장이 어디에 어떻게 쓰이는지 쉽게 풀어 설명합니다.

출처: KodeKloud2026년 6월 26일AI 보조 요약

AI 모델의 두 얼굴: '학습'과 '추론'은 무엇이 다른가 영상 대표 이미지

핵심 메시지

AI 모델은 크게 '학습(training)'과 '추론(inference)' 두 과정으로 나뉜다.
학습은 다시 방대한 데이터를 먹이는 '사전학습'과, 실제 용도에 맞춰 다듬는 '사후학습'으로 나뉜다.
추론은 완성된 모델을 사용자에게 서비스하는 단계로, 학습 못지않게 막대한 연산이 든다.
사후학습은 사전학습보다 연산이 적어, 같은 기반 모델에서 여러 버전(체크포인트)이 나온다.

쉽게 이해하기

흔히 AI 모델이라고 하면 한 덩어리로 생각하지만, 실제로는 모델을 '만드는' 학습 과정과, 만들어진 모델을 '쓰는' 추론 과정으로 나뉜다. 추론은 이미 학습이 끝난 모델을 사람들이 실제로 사용할 수 있도록 구동하는 과정을 말한다. 영상은 4050억 개의 파라미터를 가진 라마(Llama) 3.1을 예로 들며, 우리가 흔히 접하는 최신 모델들은 수조 개 단위의 파라미터로 추정되어 규모가 최소 서너 배 더 크다고 설명한다.

학습의 첫 단계는 '사전학습(pre-training)'이다. 모델 크기 자체도 크지만, 여기에 수조 개 토큰 분량의 데이터를 통째로 흘려보내야 한다. 라마의 경우 15.6조 토큰이 사용됐다. 모델이 다음에 올 토큰을 가장 잘 예측하도록 스스로 학습하는 이 과정은 수만 장의 그래픽카드(GPU)에 나눠 처리되며, 그렇게 해야 수천 년이 걸릴 연산을 수개월로 단축할 수 있다.

사전학습이 끝나면 '사후학습(post-training)'으로 넘어간다. 기반 모델을 실제 사용 사례(채팅, 에이전트 등)에 맞게 정렬하고 선호도를 맞추는 단계다. 사후학습은 사전학습에 비해 훨씬 적은 연산으로 가능하다. 그래서 동일한 기반 모델을 바탕으로 짧은 주기마다 개선된 여러 버전이 출시될 수 있다.

학습이 끝났다고 일이 끝나는 것은 아니다. 완성된 모델을 실제 서비스로 제공하는 '추론' 역시 별개의 큰 과제다. 수억 명이 쓰는 서비스 규모에서는 추론에 드는 연산도 학습만큼 커진다. 예를 들어 100만 토큰에 달하는 긴 문맥을 처리하려면 그래픽카드 서너 장이 동시에 필요할 수 있다. 결국 데이터센터는 새 모델 학습과 기존 모델 서빙을 동시에 감당하기 위해 막대한 규모의 GPU를 상시 확보해 둔다.

주요 인사이트

AI의 '비용'은 학습 한 번으로 끝나는 게 아니라, 매 순간 사용자에게 답을 내놓는 추론에서도 지속적으로 발생한다.
최신 모델 버전이 빠르게 쏟아지는 이유는, 비싼 사전학습을 다시 하지 않고 상대적으로 저렴한 사후학습만 반복하기 때문이다.
'파라미터 수'와 '학습 데이터(토큰) 양'은 별개의 축이며, 둘 다 연산량을 끌어올린다.
긴 문맥(컨텍스트) 입력은 그 자체로 추론 비용을 크게 높이는 요인이다.

자주 묻는 질문

학습(training)과 추론(inference)의 차이는 무엇인가요?

학습은 데이터를 이용해 모델의 파라미터를 만들고 다듬는 과정이고, 추론은 그렇게 완성된 모델을 실제로 구동해 사용자에게 답을 내놓는 과정입니다.

사전학습과 사후학습은 어떻게 다른가요?

사전학습은 수조 개 토큰의 데이터를 모델에 흘려보내며 다음 토큰 예측을 학습시키는 단계로 막대한 연산이 듭니다. 사후학습은 그 기반 모델을 채팅·에이전트 같은 실제 용도에 맞게 정렬하는 단계로, 훨씬 적은 연산이 듭니다.

추론도 학습만큼 많은 연산이 필요한가요?

네. 수억 명이 사용하는 규모에서는 추론에 드는 연산도 매우 커집니다. 100만 토큰 분량의 긴 입력은 그래픽카드 서너 장이 동시에 필요할 정도입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗