AI VIDEO BRIEFING
로컬 AI 코딩 2026 가이드: LM Studio로 Claude Code에 로컬 모델 연결하기
RTX 5090과 LM Studio로 로컬 LLM을 돌리고 Claude Code에 연결해 클라우드 없이 코딩하는 2026년형 워크플로우. MoE 양자화 모델, 컨텍스트 윈도우, 서브에이전트 활용 팁까지.

핵심 메시지
쉽게 이해하기
발표자는 RTX 5090(VRAM 32GB)을 단 Linux 머신에서 약 350억 파라미터의 MoE(전문가 혼합) 모델을 돌린다. MoE는 질문할 때 모든 파라미터가 활성화되지 않아, 큰 모델인데도 초당 100토큰 이상으로 빠르게 코드를 처리한다. 다만 핵심 전제가 있다. 모델이 GPU에 전부 올라가지 못해 일부 파라미터를 시스템 RAM에 올리면, 데이터가 GPU와 RAM 사이를 오가며 성능이 크게 나빠진다. 특히 에이전트 코딩은 큰 컨텍스트 윈도우를 써 연산 비용이 가파르게 늘어나므로, 어떤 모델이 실제로 GPU에 들어가 쓸 만한 속도를 내는지 직접 실험해 확인해야 한다.
주 개발 환경인 MacBook에서 이 로컬 모델을 쓰기 위해, LM Studio의 새 '링크' 기능으로 두 기기 사이에 암호화된 연결을 만든다. 양쪽 기기에서 LM Studio에 로그인하면 상대 기기가 곧바로 목록에 뜨고, MacBook에서 Linux GPU의 모델을 '로컬처럼' 호출할 수 있다. MacBook에서 직접 비슷한 모델을 돌릴 수도 있지만 GPU에 비해 훨씬 느리기 때문에, 이 링크 방식이 실용적이다.
다음은 Claude Code 연결이다. LM Studio의 로컬 서버를 켜고 Claude Code가 그쪽을 가리키게 한다. 몇 달 전부터 Claude Code는 Anthropic 모델뿐 아니라 원하는 모델에 연결할 수 있게 됐다. LM Studio는 여러 엔드포인트를 노출하는데, OpenAI API 표준과 호환되는 것도 있지만 Claude Code가 기대하는 Anthropic 호환 엔드포인트(v1/messages)를 쓰는 것이 가장 쉽다. 발표자는 Claude Code에게 스스로 설정을 조사하게 해, 결국 두 환경변수(Anthropic 기본 URL과 API 키)를 덮어써 요청을 로컬 GPU로 보낸다.
속도의 현실도 짚는다. Claude Code는 올바른 코딩을 위한 지시가 가득한 거대한 시스템 프롬프트를 주입하기 때문에, 로컬 모델은 빈 채팅처럼 빠르지 않다. 많은 홍보성 영상이 이 점을 빠뜨리지만, 아주 강력한 머신이 아니면 저장소가 커질수록 매우 느려진다. 또 LM Studio 기본값인 4,000토큰 컨텍스트로는 시스템 프롬프트만으로 한계를 넘겨, 명확한 오류 메시지 없이 무한정 멈춘다. 컨텍스트를 8만 토큰가량으로 늘리면 응답이 훨씬 빨라진다. 흥미롭게도 모델은 시스템 프롬프트가 자신을 'Sonnet'이라 칭하면 스스로를 Sonnet으로 여긴다 — 언어 모델은 자기 정체성을 늘 알지 못하고 시스템 프롬프트에 크게 좌우된다.
실전으로 LM Studio API와 상호작용하는 풀스택 앱(Next.js + TypeScript 대시보드)을 plan 모드로 만들게 한다. 로컬 모델도 도구 호출을 꽤 잘 수행해 '주된 용도가 무엇이냐'고 되묻는다. 컨텍스트가 넘칠 때는 LM Studio 설정에 따라 대화 중간을 잘라내거나(초기 탐색 기록은 남김) Claude Code가 알아서 대화를 요약한다. 발표자는 dev container 안에서 'bypass all permissions(모든 권한 자동 승인)' 모드로 돌려, 변경마다 일일이 확인하지 않고 자리를 비워도 안전하게 작업을 맡긴다. 이때 작업마다 서브에이전트를 만들게 지시하는 것이 중요한데, 새 인스턴스가 신선한 컨텍스트로 한 가지 일을 처리하고 결과만 보고하므로 제한된 컨텍스트를 훨씬 효율적으로 쓸 수 있다.
결과적으로 약 30분 만에 동작하는 대시보드를 얻었지만 버그가 적지 않았고, GPU 모델명처럼 명시하지 않은 정보는 모델이 그럴듯하게 지어냈다. 최신 클라우드 모델도 버그 수정은 필요하지만, 로컬 모델은 더 약해 버그가 더 많다는 현실을 받아들여야 한다. 한 가지 효과적인 방법은 에이전트가 통합하려는 백엔드 API를 직접 호출하게 해, 출력 형식을 스스로 확인하며 코드를 맞추게 하는 것이다. 발표자는 최첨단 클라우드 모델만큼은 아니어도, 프라이버시를 중시한다면 지금의 로컬 AI 코딩은 2년 전과 비교할 수 없이 강력해졌다고 결론짓는다.
주요 인사이트
- 로컬 LLM의 진짜 병목은 모델 크기 자체가 아니라 'GPU VRAM에 전부 올라가느냐'와 '컨텍스트 윈도우 설정'이다.
- Claude Code의 거대한 시스템 프롬프트는 로컬 모델에서 '공짜 점심'이 아니다 — 프롬프트 처리만으로도 응답이 크게 느려진다.
- 모델이 시스템 프롬프트 때문에 자신을 'Sonnet'으로 착각하는 사례는, LLM의 정체성과 행동이 프롬프트로 규정된다는 점을 보여준다.
- 제한된 로컬 컨텍스트에서는 서브에이전트로 작업을 쪼개 각자 신선한 컨텍스트로 처리하게 하는 것이 핵심 전략이다.
- 로컬 코딩의 강점은 최고 성능이 아니라 프라이버시와 자립성이며, 버그가 더 많다는 현실을 인정하고 시작해야 한다.
자주 묻는 질문
로컬 모델을 GPU에 전부 올리지 못하면 어떻게 되나요?
일부 파라미터가 시스템 RAM으로 넘어가 데이터가 GPU와 RAM 사이를 오가게 되고, 성능이 크게 떨어집니다. 시스템에 올라간다고 실사용 가능한 속도라는 뜻은 아니므로, 실제로 GPU에 들어가는지 실험으로 확인해야 합니다.
Claude Code에 로컬 모델을 어떻게 연결하나요?
LM Studio의 로컬 서버를 켜고 Anthropic 호환 엔드포인트(v1/messages)를 사용합니다. Anthropic 기본 URL과 API 키 환경변수를 로컬 서버 주소로 덮어쓰면 Claude Code의 요청이 로컬 GPU로 전달됩니다.
로컬 모델이 느리게 느껴지는 이유는 무엇인가요?
Claude Code가 올바른 코딩을 위한 수천 토큰짜리 시스템 프롬프트를 주입하기 때문입니다. 또 컨텍스트 윈도우를 너무 작게(예: 4,000토큰) 두면 프롬프트만으로 한계를 넘겨 멈출 수 있어, 8만 토큰가량으로 넉넉히 잡아야 빨라집니다.
제한된 컨텍스트에서 로컬 코딩을 잘하려면 어떻게 해야 하나요?
작업마다 서브에이전트를 만들게 해 각 작업을 새 컨텍스트 윈도우에서 처리하고 결과만 보고하게 하면, 제한된 컨텍스트를 훨씬 효율적으로 쓸 수 있습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗