AI VIDEO BRIEFING

CPU vs GPU vs TPU 차이 정리: 칩마다 다른 연산 특성과 머신러닝

같은 작업이 CPU·GPU·TPU에서 왜 다르게 동작하는지, 각 칩이 어떤 연산에 최적화됐는지 행렬 곱셈과 텐서 개념을 통해 쉽게 풀어낸다. 특화의 장단점도 함께 설명한다.

출처: ByteByteGo2026년 6월 1일AI 보조 요약

CPU·GPU·TPU는 무엇이 다른가: 같은 작업이 칩마다 다르게 돌아가는 이유 영상 대표 이미지

핵심 메시지

같은 작업이 칩마다 다르게 도는 이유는 각 칩이 서로 다른 종류의 연산에 최적화돼 있기 때문이다.
CPU는 범용·분기가 많은 작업, GPU는 대량의 병렬 수학 연산, TPU는 텐서 중심의 머신러닝 작업에 특화돼 있다.
신경망 연산의 상당 부분은 행렬 곱셈이며, 같은 연산을 대규모로 반복하는 이 특성이 GPU가 AI에 잘 맞는 이유다.
특화는 트레이드오프다. 더 특화될수록 효율은 오르지만 유연성은 떨어져, 실제 시스템은 작업별로 다른 칩을 섞어 쓴다.

쉽게 이해하기

영상은 "왜 같은 작업이 CPU에서 한 방식으로, GPU에서 전혀 다르게, 때로는 TPU에서 더 빠르게 도는가"라는 질문으로 시작한다. 답은 단순하다. 각 칩이 서로 다른 유형의 연산에 맞춰 설계됐기 때문이다.

CPU는 유연성을 위해 만들어진 범용 프로세서다. 웹 서버, 데이터베이스, 운영체제, 애플리케이션 로직처럼 매 단계가 달라지는 작업을 처리한다. 요청을 읽고, 인증을 확인하고, 데이터를 찾고, 규칙을 적용해 응답을 돌려주는 식의 분기와 의사결정이 많은 일에 강하다. 그래서 강력한 코어 소수로 다양한 작업을 효율적으로 다룬다.

반대로 같은 수학을 대량의 데이터에 반복하는 작업—그래픽 렌더링, 과학 계산, 영상 처리, 머신러닝—에는 GPU가 들어온다. GPU는 CPU보다 훨씬 많은 산술 유닛을 담아 고처리량 병렬 작업에 강하다. 그 이유를 이해하려면 행렬 곱셈을 봐야 한다. 행렬은 숫자의 격자이고, 행렬 곱셈은 두 격자를 행·열 단위로 곱하고 더해 새 격자를 만드는 연산이다. 단순해 보여도 행렬이 커지면 막대한 반복 연산이 되며, 이 연산이 머신러닝에서 끊임없이 등장한다. 신경망이 입력을 처리할 때 내부에서 하는 일의 상당수가 입력과 가중치라는 큰 숫자 집합을 행렬 곱셈으로 결합하고, 이를 여러 층에 걸쳐 반복하는 것이다.

그다음은 텐서다. 단일 숫자는 스칼라, 숫자의 나열은 벡터, 숫자의 격자는 행렬이고, 텐서는 이를 일반화한 더 높은 차원의 숫자 배열로 볼 수 있다. 예를 들어 컬러 이미지는 높이·너비·색 채널을 가진 텐서이며, 여러 이미지를 한 배치로 묶으면 더 큰 텐서가 된다. TPU(Tensor Processing Unit)는 바로 이 텐서 중심 작업—대형 신경망의 학습과 추론—을 위해 특별히 설계됐다. 대규모 언어 모델 서빙이나 트랜스포머 학습처럼 거대한 텐서에 대한 행렬 곱셈이 작업을 지배할 때 TPU가 빛난다.

그렇다면 왜 모든 일에 TPU를 쓰지 않을까. 특화가 트레이드오프이기 때문이다. 하드웨어가 특화될수록 유연성은 줄어든다. CPU는 거의 모든 일을 무난히 하고, GPU는 다양한 병렬 작업에 탁월하며, TPU는 설계에 맞는 머신러닝 작업에서 극도로 효율적이다. 그래서 현대 시스템은 흔히 작업의 부분마다 다른 칩을 쓴다—CPU가 제어 흐름과 오케스트레이션을, TPU·GPU가 대규모 병렬 연산을 맡는 식이다. 결국 성능은 작업을 알맞은 아키텍처에 맞추는 데서 나온다.

주요 인사이트

칩의 우열은 절대적이지 않다. "어떤 작업이냐"가 정해질 때 비로소 어떤 칩이 빠른지가 결정된다.
AI 연산의 핵심은 행렬 곱셈이라는 같은 연산의 대규모 반복이며, 이것이 GPU·TPU가 머신러닝에 유리한 근본 이유다.
텐서는 스칼라·벡터·행렬을 잇는 고차원 배열일 뿐이며, 이 개념이 TPU라는 이름과 설계 목적(텐서 처리)으로 직결된다.
특화와 유연성은 반비례한다. 그래서 실무에서는 단일 칩이 아니라 CPU·GPU·TPU를 역할에 따라 조합하는 것이 일반적이다.

자주 묻는 질문

CPU, GPU, TPU는 각각 어떤 작업에 최적화돼 있나?

CPU는 분기가 많은 범용 작업, GPU는 대량의 병렬 수학 연산, TPU는 대형 신경망의 학습·추론 같은 텐서 중심 머신러닝 작업에 최적화돼 있다.

왜 행렬 곱셈이 AI에서 그렇게 중요한가?

신경망은 입력과 가중치라는 큰 숫자 집합을 행렬 곱셈으로 결합해 여러 층에 걸쳐 반복 처리한다. 즉 같은 연산을 대규모로 반복하므로 병렬 처리에 강한 칩이 유리하다.

그렇다면 모든 작업에 TPU를 쓰면 되지 않나?

아니다. 특화될수록 유연성이 떨어지기 때문이다. TPU는 텐서 중심 작업엔 매우 효율적이지만 범용성은 낮아, 실제로는 작업에 맞춰 CPU·GPU·TPU를 섞어 쓴다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗