AI VIDEO BRIEFING

초소형 AI 워크스테이션 자작 — RTX Pro 4000 SFF로 맥 스튜디오와 성능 비교

버스 전원 RTX Pro 4000 SFF와 ITX 부품으로 백팩에 들어가는 초소형 AI 추론 머신을 Velka 3 케이스에 조립하고, 맥 스튜디오 M3 Ultra와 프리필·디코드 토큰 생성 속도를 실측 비교한 과정을 정리했다.

출처: Alex Ziskind2026년 7월 4일AI 보조 요약

핵심 메시지

유튜버 알렉스 지스킨트는 맥 스튜디오와 비슷한 크기로 백팩에 들어가는 AI 추론용 워크스테이션을 Velka 3 케이스로 조립했다.
핵심은 버스 전원(70W)으로 구동되는 RTX Pro 4000 SFF로, 24GB VRAM을 갖춘 가장 작은 GPU지만 풀사이즈보다 전력과 속도는 낮다.
모델은 시스템 RAM을 거쳐 VRAM에 올라가므로, 시스템 RAM은 VRAM과 비슷하거나 조금 더 크게 잡는 것이 좋다.
맥 스튜디오 M3 Ultra는 토큰 생성(디코드)이 근소하게 빨랐지만, 엔비디아 CUDA는 프롬프트 처리(프리필)에서 2배 이상 빨랐다.
초소형 폼팩터에서도 100 토큰/초 이상을 냈으며, 용도에 따라 맥과 엔비디아의 장단점이 갈린다.

쉽게 이해하기

유튜버 알렉스 지스킨트가 마이크로센터의 댄과 함께 자신의 가장 작은 AI 워크스테이션을 조립한다. 목표는 맥 스튜디오만 한 크기로 백팩에 넣을 수 있는 강력한 추론 머신을 만드는 것이며, 케이스는 초소형 Velka 3를 사용한다.

GPU 선택이 성능을 좌우한다. RTX Pro 4000 SFF는 버스 전원 70W로 구동되고 24GB VRAM을 갖췄는데, 24GB GPU 중 가장 작다. 풀사이즈 Pro 4000과 CUDA 코어·VRAM은 같지만 전력이 낮아 속도는 떨어진다. AI 워크로드에서는 VRAM 용량이 결정적 요소다.

나머지 부품은 AM5용 ITX MSI B850 메인보드, 발열 관리가 쉬운 전력효율형 Ryzen 5 9600X, 예산을 고려해 64GB 대신 고른 Crucial DDR5-6400 CL32 32GB, Thermalright 쿨러, FSP 650W 플렉스 파워서플라이로 구성했다. 모델은 시스템 RAM을 거쳐 VRAM으로 로드되므로 시스템 RAM은 VRAM과 비슷하게 잡았다.

조립은 초소형 케이스 탓에 시행착오가 많았다. PCIe4 라이저가 작동하지 않아 나중에 PCIe5 라이저로 교체했고, 브래킷도 로우 프로파일로 바꿔야 했다. 결국 아이폰보다 약간 큰 크기로 완성해 백팩에 넣을 수 있었다.

성능 비교에서 16GB 맥 미니(Qwen3 4B)는 약 30 토큰/초였던 반면 자작 머신은 103 토큰/초를 냈다. 더 큰 Gemma 3 12B로 맥 스튜디오 M3 Ultra와 비교하면 디코드는 맥 45.4 대 자작기 39.6 토큰/초로 맥이 근소 우위였지만, 프롬프트 처리는 맥 650 대 자작기 1505 토큰/초로 엔비디아가 두 배 이상 빨랐다.

주요 인사이트

24GB VRAM을 가장 작은 폼팩터로 확보하려면 버스 전원 SFF GPU가 해법이지만, 전력 제한 탓에 풀사이즈 대비 속도 손해를 감수해야 한다.
맥의 통합 메모리는 대용량과 높은 대역폭(M3 Ultra 819GB/s)으로 큰 모델에 유리하고, 엔비디아 CUDA는 프리필(프롬프트 처리)에서 강점을 보인다.
로컬 추론에서 어느 쪽이 빠른지는 절대적이지 않고, 프리필과 디코드 등 워크로드 성격에 따라 우열이 갈린다.
AMD Ryzen AI Max+ 395(128GB) 같은 통합형 미니 플랫폼도 소형 로컬 AI 머신의 대안으로 부상하고 있다.

자주 묻는 질문

RTX Pro 4000 SFF의 VRAM과 전력은 어느 정도인가?

24GB VRAM에 버스 전원으로 70W다. 풀사이즈 Pro 4000과 CUDA 코어·VRAM은 같지만 전력이 낮아 더 느리며, 24GB를 갖춘 GPU 중 가장 작다.

맥 스튜디오 M3 Ultra와 이 자작 머신의 성능 차이는?

Gemma 3 12B 기준 디코드는 맥이 45.4, 자작기가 39.6 토큰/초로 맥이 근소 우위였지만, 프롬프트 처리는 맥 650 대 자작기 1505 토큰/초로 엔비디아가 두 배 이상 빨랐다.

시스템 RAM은 얼마나 필요한가?

모델이 시스템 RAM을 거쳐 VRAM으로 로드되므로, 운영체제 여유를 감안해 VRAM과 비슷하거나 조금 더 크게 잡는 것이 좋다. 이 빌드는 32GB를 사용했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗