AI VIDEO BRIEFING

AMD 스트릭스 헤일로 vs 엔비디아 DGX 스파크: 로컬 LLM 미니 PC 비교와 구매 가이드

1,500달러 AMD 라이젠 AI 맥스+ 미니 PC가 4,700달러 엔비디아 DGX 스파크가 아예 못 올리는 1,200억 파라미터 모델을 구동한다. 통합 메모리·대역폭·소프트웨어 성숙도까지 냉정하게 따져 본 2026년 로컬 AI 머신 선택 기준.

출처: AI Master2026년 7월 5일AI 보조 요약

1,500달러 미니 PC가 4,700달러 엔비디아 박스를 이겼다 — AMD 스트릭스 헤일로가 바꾼 로컬 AI의 셈법 영상 대표 이미지

핵심 메시지

AMD 라이젠 AI 맥스+(스트릭스 헤일로) 미니 PC는 1,500달러에 1,200억 파라미터 모델을 올리는데, 4,700달러 엔비디아 DGX 스파크와 토큰 생성 속도 차이는 약 13%에 불과하다.
핵심은 GPU 연산력이 아니라 통합 메모리 용량이다. RTX 5090의 VRAM은 32GB뿐이라 대형 모델은 아예 로드되지 않지만, 스트릭스 헤일로는 최대 96~112GB를 VRAM으로 할당할 수 있다.
엔비디아는 긴 입력을 처리하는 프리필(prefill) 속도에서 약 5배 앞서고, CUDA 생태계 성숙도에서도 여전히 우위다.
AMD의 실측 메모리 대역폭은 광고된 256GB/s의 절반 수준(약 122GB/s)이고, 애플 M3 울트라(약 819GB/s)에는 크게 못 미친다.
용도가 에이전트·로컬 추론(70B~120B)이라면 지금 사도 손해가 아니지만, CUDA 종속 스택이라면 6개월 더 지켜보는 편이 낫다.

쉽게 이해하기

영상은 2026년 로컬 AI 하드웨어 시장의 판이 바뀐 사건으로 AMD의 라이젠 AI 맥스+ 칩(코드명 스트릭스 헤일로)을 지목한다. GMKtec Evo X2(1,499달러) 같은 미니 PC가 1,200억 파라미터급 오픈소스 모델을 실제로 구동하는데, 같은 모델을 돌리는 엔비디아 DGX 스파크는 4,700달러다. 더 결정적인 것은 엔비디아의 소비자용 최고 GPU RTX 5090조차 VRAM이 32GB라 대형 모델을 통째로 메모리에 올리지 못한다는 점이다.

발표자는 AMD가 'RTX 5080보다 3배 빠르다'고 주장하는 벤치마크를 그대로 믿지 말라고 선을 긋는다. RTX 5080의 VRAM은 16GB라 애초에 그 모델을 로드할 수 없기 때문이다. 즉 이것은 연산 속도의 승리가 아니라 용량의 승리다. 700억 파라미터 모델은 약 42GB, 1,200억 파라미터 모델은 최소 양자화에서도 약 70GB의 메모리를 요구하는데, 통합 메모리로 100GB 안팎을 확보하는 스트릭스 헤일로가 이 벽을 넘는다.

실사용 속도를 보면 GPT-OSS 120B에서 스트릭스 헤일로는 초당 약 34토큰, DGX 스파크는 약 38.5토큰으로 13% 차이다. 사람이 읽는 속도보다 빠르기 때문에 대부분의 개인 용도에서는 체감되지 않는다. 다만 50페이지 문서 같은 긴 입력을 먼저 처리하는 프리필 단계에서는 DGX 스파크가 초당 약 1,723토큰으로 스트릭스 헤일로(약 340토큰)를 5배가량 앞선다. 문서 중심 RAG 파이프라인이라면 이 차이가 실제로 느껴진다.

가격 지형은 뚜렷하다. 스트릭스 헤일로 계열은 GMKtec Evo X2 1,499달러, 프레임워크 데스크톱 2,348달러, 커세어 AI 워크스테이션 300 2,699달러이고, DGX 스파크는 4,699달러, 96GB 애플 M3 울트라 맥 스튜디오는 4,999달러부터다. 다만 발표자는 스스로 신뢰를 얻기 위해 불리한 각주도 짚는다. AMD의 컴퓨트 스택 ROCm은 아직 프리뷰 단계이고 윈도우를 지원하지 않아 리눅스 전용이며, 15년 쌓인 CUDA 생태계와는 성숙도 격차가 크다.

메모리 대역폭 신화도 해부한다. AMD가 내세우는 256GB/s는 이론값이고 한 독립 리뷰의 실측은 약 122GB/s로 절반 이하다. 애플 M3 울트라는 약 819GB/s로 여기서 압도한다. 대신 통합 메모리 1GB당 가격은 AMD가 약 25.77달러로 애플(약 41.66달러)보다 싸다. 또한 XDNA2 NPU는 화려한 TOPS 수치에도 불구하고 올라마·llama.cpp·LM 스튜디오 같은 로컬 추론 도구가 실제 LLM 추론에 쓰지 않아 현재로선 마케팅 숫자에 가깝다.

주요 인사이트

이 세대에서는 '용량이 곧 연산력'이다. GPU 코어의 절대 속도보다, 얼마나 큰 모델을 메모리에 올리고 몇 개의 에이전트를 동시에 굶기지 않고 돌릴 수 있느냐가 승부를 가른다.
메모리 값 급등이 배경이다. DRAM 계약가가 2026년 1분기에 분기 대비 90~95% 뛰었고, DGX 스파크 가격도 한 분기에 약 700달러 올랐다. AMD의 통합 메모리 전략이 틈새 이야기에서 실질적 재무 논리로 바뀐 이유다.
AMD의 잭 후인은 '컴퓨터의 주 사용자는 더 이상 사람이 아니라 AI 에이전트'라고 주장한다. 라이젠 클로 데모에서 128GB 통합 메모리로 6개 에이전트를 동시에(초당 약 45토큰) 돌린 것이 통합 메모리의 진짜 킬러 유스케이스다.
소프트웨어 생태계도 움직인다. llama.cpp 창시자 게오르기 게르가노프가 2026년 2월 허깅페이스에 합류했고, AMD는 로컬 모델 배포용 레모네이드 SDK를 내놨다. 온프레미스 로컬 AI로 무게중심이 이동 중이라는 신호다.
곧 나올 고르곤 헤일로(라이젠 AI 맥스+ 프로 495)는 2026년 3분기 목표로 통합 메모리 최대 192GB(AI 가용 160GB)를 내세워 3,000억 파라미터 모델을 책상 위에서 돌리는 것을 겨냥한다.

자주 묻는 질문

AMD 스트릭스 헤일로 미니 PC는 어떤 사람에게 지금 사도 좋은가?

홈랩을 꾸리거나 에이전트 파이프라인을 만들고 70B~120B 모델로 로컬 추론을 하는 경우다. 프레임워크 데스크톱(2,348달러)이나 GMKtec Evo X2(1,499달러)면 핵심 용도에서 타협 없이 셈이 맞는다.

엔비디아 DGX 스파크는 언제 더 유리한가?

긴 문맥을 먼저 처리하는 프리필 속도가 병목인 워크로드(예: 문서 중심 RAG)이거나, 도구와 커스텀 커널이 모두 CUDA에 묶여 있는 팀이다. 다만 발표자는 4,700달러라는 가격 때문에 대부분의 개인 개발자·크리에이터에게는 지금 추천하지 않는다고 밝힌다.

AMD가 광고하는 256GB/s 메모리 대역폭을 그대로 믿어도 되나?

아니다. 이는 이상적 조건의 이론값이고 한 독립 리뷰의 실측은 약 122GB/s로 절반 이하였다. 참고로 애플 M3 울트라는 약 819GB/s다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗