AI VIDEO BRIEFING
Docling으로 비정형 문서를 LLM용 데이터로: PDF·표·이미지 추출 실전
Red Hat 엔지니어가 오픈소스 도구 Docling으로 PDF·표·이미지 같은 비정형 문서를 마크다운·JSON으로 변환해 RAG와 AI 에이전트의 정확도를 높이는 방법을 설명한다.

핵심 메시지
쉽게 이해하기
AI 애플리케이션이나 에이전트를 만들 때 가장 중요한 것은 모델에 주는 맥락(context)이다. 그런데 기업이 가진 데이터의 상당수는 PDF, 프레젠테이션, 계약서, 기술 문서, 회의록, 스캔 문서, 표, 이미지처럼 비정형 형식으로 여러 시스템에 흩어져 있다. 이 데이터를 LLM이 이해할 수 있는 형태로 바꾸지 못하면, 아무리 좋은 모델을 써도 그 가치를 끌어내기 어렵다.
발표자는 부정확한 문서 처리가 얼마나 위험한지 실제 사례로 보여준다. 오래된 논문을 스캔해 PDF로 만드는 과정에서 AI가 서로 다른 두 단(column)의 단어를 잘못 합쳐 존재하지도 않는 용어를 만들어냈고, 그 엉터리 용어가 20여 편의 과학 논문에 등장하고 인용까지 되는 일이 벌어졌다. 데이터를 어떻게 처리하느냐가 결과의 정확성을 좌우한다는 점을 단적으로 보여주는 사례다.
단순 PDF 파서는 빠르고 저렴하지만 표를 한 줄로 뭉개고 이미지를 통째로 빠뜨려, 사람조차 알아보기 힘든 결과를 낸다. 반대로 프런티어 모델에 직접 맡기면 품질은 낫지만 수천 개 문서로 확장하면 비용이 폭발하고, 모델의 비결정성 때문에 매번 일관된 구조화 출력을 보장하기 어렵다. Docling은 이 둘 사이의 현실적인 절충안으로 제시된다.
Docling은 pip install 한 번으로 문서·웹페이지를 마크다운, JSON, 그리고 코드에서 바로 쓸 수 있는 Pydantic 데이터 타입으로 변환한다. OCR과 레이아웃 분석, 비전 모델을 조합해 표를 데이터프레임으로 추출하고, 이미지에 설명을 달고(주석), 인보이스에서 청구번호·총액 같은 필드만 골라 구조화해 뽑아낼 수 있다. Hugging Face의 한 사례에서는 GPU/CPU로 Docling 전처리를 적용해 단순 VLM·OCR 대비 약 50배의 비용 절감을 달성했다.
발표는 청크나 임베딩, 벡터 DB 없이 문서의 마크다운 개요 자체를 검색 인덱스로 삼는 "청크리스(chunkless)·에이전틱 RAG" 패턴도 시연한다. LLM이 문서 구조를 훑어 질문과 관련된 섹션을 직접 찾아 답하는 방식이다. 또한 대규모 처리를 위한 docling serve(REST API·컨테이너·쿠버네티스)와, Claude Code 같은 에이전트가 문서 처리 기능을 표준화된 방식으로 호출하게 해주는 Docling MCP 서버도 소개된다.
주요 인사이트
- 데이터 처리 방식은 어떤 모델(NVIDIA 가속, 오픈소스, 프로프라이어터리)을 쓰느냐와 무관하게 최종 답변의 정확성을 결정하는 핵심 변수다.
- 로컬·오픈소스 처리는 비용 절감뿐 아니라 사설 데이터를 외부 서버로 보내지 않아도 되는 보안·에어갭 환경에서 특히 강점을 가진다.
- 청크리스 RAG는 수천 개 벡터를 만드는 대신 문서의 마크다운 개요를 인덱스로 삼아, LLM이 관련 섹션을 반복적으로 탐색해 답을 찾게 한다.
- MCP 서버를 통해 에이전트는 Docling의 복잡한 인자나 명령을 몰라도 "이 문서를 변환해 요약해줘" 같은 자연어 지시로 문서 처리를 자동화할 수 있다.
자주 묻는 질문
Docling은 어떤 도구이며 무엇을 변환하나요?
리눅스 재단 소속 오픈소스 CLI·라이브러리로, pip install docling 한 번으로 PDF·웹페이지·이미지 등 다양한 입력을 마크다운, JSON, Pydantic 데이터 타입으로 변환합니다. GPU 없이 로컬에서 빠르고 저렴하게 실행됩니다.
왜 단순 PDF 파서 대신 Docling이 필요한가요?
단순 파서는 표를 한 줄로 뭉개고 이미지 내용을 누락해 LLM이 신뢰할 수 없는 결과를 냅니다. 프런티어 모델에 직접 맡기면 비용이 크고 출력이 비일관적입니다. Docling은 OCR·레이아웃 분석·비전 모델로 구조를 보존하면서 저렴하게 확장합니다.
청크리스(chunkless) RAG란 무엇인가요?
청커·임베딩 모델·벡터 DB 없이 문서의 마크다운 개요 자체를 검색 인덱스로 사용하는 방식입니다. 사용자가 질문하면 LLM이 문서 구조를 훑어 관련 섹션을 직접 찾아 원문에서 답을 끌어내며, 에이전트 루프로 반복 수행할 수 있습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗