AI VIDEO BRIEFING
Ollama 멀티모달 모델 실습 — LLaVA로 이미지 설명·질의응답·OCR 해보기
올라마(Ollama)로 비전 모델 LLaVA를 내려받아 로컬에서 이미지를 설명하고, 개수·색을 묻고, 글자를 인식시키는 과정을 실습으로 보여준다. VS Code AI 툴킷 연동까지 다룬다.

핵심 메시지
쉽게 이해하기
이 영상은 이론이 아니라 손으로 따라 하는 실습이다. 먼저 올라마(Ollama) 웹사이트의 모델 카탈로그에서 비전(vision) 모델 카테고리를 열면 멀티모달 모델 목록이 보인다. 발표자는 그중 LLaVA(영상에서는 'lava'로 발음)를 선택하는데, 7B·13B·34B 파라미터 옵션 가운데 다루기 쉬운 7B를 골라 'ollama pull lava'로 내려받고 'ollama list'로 설치를 확인한 뒤 'ollama run lava'로 실행한다.
핵심은 이미지를 모델에 넘기는 방법이다. 파일 이름이 힌트가 되지 않도록 사진에 번호만 붙여 두고, 'describe this image'라고 한 뒤 현재 디렉터리의 파일 경로(예: ./03.jpeg)를 함께 준다. 그러면 모델은 이미지를 입력에 추가했다고 알린 뒤, '작은 개울에서 물을 마시는 어린 사슴, 갈색 반점, 넓은 귀' 식으로 사진을 묘사한다.
단순 설명을 넘어 후속 질문도 가능하다. 알 사진을 두고 '이미지에 알이 몇 개야?'라고 물으면 '세 개'라고 답하고, '무슨 색이야?'에는 분홍·노랑·파랑이라고 답한다. 다만 발표자는 더 많아 보이는 알을 모델이 세 개로만 셈하는 한계를 그대로 보여 주며, 가장 작은 모델이라 정확도가 떨어질 수 있다고 짚는다. 두 사람이 있는 사진에서 인원 수를 묻거나, 선인장을 아이스바처럼 변형한 사진에서 '무엇이 이상한가'를 묻는 추론도 시연한다.
텍스트 인식도 다룬다. 'I made a mistake mistakes help me learn'이 적힌 사진을 주고 글자를 묻자 모델이 그대로 받아써, 멀티모달 모델이 OCR처럼 텍스트 전사도 할 수 있음을 보여 준다.
마지막으로 명령줄이 번거로울 수 있어, VS Code용 'AI Toolkit' 확장을 소개한다. 확장을 설치하면 로컬 라이브러리의 올라마 모델을 추가하고, 플레이그라운드의 채팅형 인터페이스에서 모델을 선택해 경로 입력 없이 이미지를 골라 'describe this image'를 실행할 수 있다. 명령줄과 GUI 두 방식으로 같은 LLaVA 모델을 다루는 흐름을 보여 주며 마친다.
주요 인사이트
- 멀티모달 AI는 클라우드 API 없이도 올라마로 로컬에서 돌릴 수 있다 — 모델을 내려받고 이미지 경로만 넘기면 바로 이미지 설명이 가능하다.
- 파일 이름에 정답 힌트가 들어가지 않도록 사진에 번호만 붙이는 작은 설계가, 모델이 진짜로 '본' 것인지 검증하는 장치가 된다.
- 같은 이미지에 설명→개수→색으로 이어지는 후속 질문이 통한다는 점에서, 로컬 비전 모델도 대화형 시각 질의응답(VQA)을 지원함을 알 수 있다.
- 작은 7B 모델이 알 개수를 틀리게 세는 장면은, 멀티모달 정확도가 모델 크기에 좌우된다는 현실적 한계를 솔직하게 드러낸다.
- 명령줄 대신 VS Code AI 툴킷의 플레이그라운드를 쓰면 경로 입력 없이 이미지를 선택할 수 있어, 로컬 멀티모달 실험의 진입 장벽이 낮아진다.
자주 묻는 질문
올라마에서 멀티모달(비전) 모델은 어떻게 시작하나요?
올라마 웹사이트의 모델 카탈로그에서 비전 모델 카테고리를 열어 모델을 고른다. 영상에서는 LLaVA를 'ollama pull lava'로 내려받고, 'ollama list'로 확인한 뒤 'ollama run lava'로 실행한다. 이후 'describe this image'와 함께 이미지 파일 경로를 주면 된다.
LLaVA에 이미지를 어떻게 전달하나요?
프롬프트와 함께 이미지 파일의 경로를 적어 주면 된다. 같은 디렉터리에 있다면 './03.jpeg'처럼 현재 디렉터리 표기로 경로를 주면 모델이 이미지를 입력에 추가하고 설명을 생성한다. VS Code AI 툴킷의 플레이그라운드에서는 경로 대신 이미지를 직접 선택할 수도 있다.
로컬 비전 모델은 이미지 속 글자도 읽을 수 있나요?
그렇다. 영상에서 글자가 적힌 사진을 주고 텍스트를 묻자 LLaVA가 문장을 그대로 받아썼다. 즉 멀티모달 모델은 이미지 설명과 질의응답뿐 아니라 OCR처럼 텍스트 전사도 수행할 수 있다. 다만 작은 모델은 세부 정확도에 한계가 있을 수 있다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗