AI VIDEO BRIEFING

랭그래프+올라마 로컬 AI 에이전트 만들기: 무료 오픈소스 모델로 실습

랭그래프와 올라마, 오픈소스 모델 Qwen3로 API 비용 없이 로컬에서 동작하는 AI 에이전트를 만드는 과정을 정리했습니다. 상태 그래프와 도구 호출 흐름을 설명합니다.

출처: Shane | LLM Implementation2025년 10월 26일AI 보조 요약

랭그래프(LangGraph)와 올라마(Ollama)로 무료 로컬 AI 에이전트 만들기 영상 대표 이미지

핵심 메시지

랭그래프는 랭체인의 에이전트·멀티에이전트 애플리케이션 구축 프레임워크로, 상태 그래프(state graph)로 작업 흐름을 정의한다.
올라마(Ollama)를 쓰면 GPT 같은 유료 폐쇄형 모델 대신 오픈소스 모델을 로컬에서 무료로 실행해 API 비용 없이 실습할 수 있다.
리소스가 제한된 환경에서는 가장 작은 모델(예: 0.6B)과 양자화(Q4_K_M) 버전부터 시작해 필요할 때 크기를 키우는 전략이 효율적이다.
에이전트 그래프는 start→assistant→(tools↔assistant)→end로 구성되며, assistant가 도구 호출 여부를 판단하는 두뇌 역할을 한다.
도구 호출 후 흐름이 assistant로 되돌아오는 루프 덕분에 에이전트가 도구 결과를 받아 최종 답을 생성할 수 있다.

쉽게 이해하기

이 영상은 랭체인 아카데미의 'Introduction to LangGraph' 강좌를 따라가되, 강좌가 기본으로 쓰는 유료 폐쇄형 모델(GPT-4o 등) 대신 올라마로 로컬 오픈소스 모델을 돌리도록 각색한 시리즈의 첫 편이다. API 키 설정과 비용이 부담스러운 입문자도 비용 없이 학습할 수 있게 하는 것이 핵심 '트위스트'다.

개발 환경은 러스트로 작성된 빠른 파이썬 패키지 관리자 UV로 구성한다. 랭체인 아카데미 깃허브 저장소를 받고, 올라마를 설치해 모델을 내려받는다. 발표자는 맥 미니의 제한된 자원을 고려해 혼합 전문가(MoE) 모델인 Qwen3의 0.6B 양자화(Q4_K_M) 버전부터 시작한다. 양자화는 모델 파일 크기를 줄여 더 빠르고 적은 메모리로 돌리면서 성능 저하를 최소화한다.

프로젝트 전체를 위한 단일 가상환경(langchain-academy)을 만들어 모듈마다 환경을 따로 두지 않도록 해 의존성 관리를 단순화한다. requirements에 langchain-ollama를 추가해 설치하고, 코드에서는 ChatOllama를 가져와 로컬 모델에 연결한다. 도구로는 add·multiply·divide 세 함수를 정의해 리스트로 모으고, LLM에 바인딩해 모델이 언제 어떤 함수를 호출할지 알게 한다.

그래프는 state graph로 만든다. 진입점 start에서 시작해 LLM이 두뇌 역할을 하는 assistant 노드로 가고, 계산이 필요하면 tools 노드로, 아니면 end로 분기한다(prebuilt tools_condition 사용). tools 노드 실행 후에는 다시 assistant로 돌아오는 엣지를 더해 루프를 완성하고 builder.compile()로 그래프를 만든다. 이어 랭그래프 스튜디오를 설정하는데, Langmith API 키를 .env에 넣고 langgraph.json에서 불러올 그래프를 지정한 뒤 langgraph dev로 실행한다.

테스트에서 '2 + 2'를 물으면 4를 반환하고, 이어 '결과에 2를 곱하라'고 하면 에이전트가 이전 결과 4를 기억해 multiply 도구를 호출, 8을 얻는다. 이 과정에서 휴먼 인 더 루프(human-in-the-loop) 검토를 위한 인터럽트 기능도 확인할 수 있고, 전체 트레이스로 상호작용 기록을 살펴볼 수 있다.

주요 인사이트

로컬 오픈소스 모델 + 올라마 조합은 API 비용이라는 진입 장벽을 없애, 입문자가 부담 없이 에이전트를 실험하게 해준다.
'가장 작은 모델부터 시작해 필요 시 키운다'는 전략은 제한된 하드웨어에서 성능과 자원 사용의 균형을 찾는 실용적 접근이다.
양자화(Q4_K_M)는 파일 크기를 줄여 속도·메모리 효율을 높이면서 성능 저하를 최소화하는, 로컬 개발에 적합한 선택이다.
prebuilt tool node와 tools_condition 같은 랭그래프 내장 요소가 도구 실행과 조건 분기를 자동 처리해 코드를 단순하게 만든다.
에이전트가 이전 계산 결과를 기억해 다음 연산에 활용하는 모습은 messages_state로 대화 상태를 추적하기 때문에 가능하다.

자주 묻는 질문

왜 GPT 대신 올라마와 오픈소스 모델을 쓰나요?

유료 폐쇄형 모델은 API 키 설정과 비용이 필요해 입문자에게 진입 장벽이 됩니다. 올라마로 오픈소스 모델을 로컬에서 무료로 실행하면 비용 걱정 없이 학습하고 실험할 수 있습니다.

제한된 하드웨어에서는 어떤 모델을 골라야 하나요?

영상에서는 가장 작은 모델(예: Qwen3 0.6B)과 양자화(Q4_K_M) 버전부터 시작하고, 복잡한 작업에 부족하면 점차 큰 크기로 올리는 전략을 권합니다.

에이전트 그래프는 어떤 흐름으로 동작하나요?

start에서 시작해 assistant 노드로 갑니다. assistant가 도구가 필요하다고 판단하면 tools 노드로 분기해 계산을 실행하고 다시 assistant로 돌아오며, 도구가 필요 없으면 end로 가서 답을 마칩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗