AI VIDEO BRIEFING

Document AI란? OCR·머신러닝으로 비정형 문서를 정형 데이터로 바꾸는 원리

PDF·이메일·양식 등 문서에 갇힌 '다크 데이터'를 OCR과 머신러닝으로 추출하는 방법과, 구글 클라우드 Document AI가 문서를 정형 데이터로 바꾸는 원리를 일반 독자 눈높이로 정리했습니다.

출처: Google Cloud Tech2022년 7월 25일AI 보조 요약

문서 속 잠든 데이터 깨우기: Document AI로 비정형 문서를 정형 데이터로 영상 대표 이미지

핵심 메시지

기업이 다루는 PDF·이메일·양식·계약서에는 막대한 정보가 있지만 대부분 '비정형(다크) 데이터'로 활용되지 못한다.
문서에서 데이터를 뽑는 방법은 수작업 입력, 고정 양식용 OCR 반자동, 그리고 AI·머신러닝 활용의 세 가지가 있다.
문서 이해는 OCR·이미지 인식·자연어 처리·개체 추출·기계 번역 등 여러 기술이 결합된 복잡한 분야다.
구글 클라우드 Document AI는 문서를 읽을 뿐 아니라 공간 구조를 이해해 양식의 질문·답을 키-값 쌍으로 돌려준다.
Document AI는 범용·특화·맞춤형 모델로 나뉘며, API 호출만으로 데이터 과학 전문성 없이도 활용할 수 있다.

쉽게 이해하기

세상의 비즈니스는 문서에 크게 의존한다. 매일 마주치는 PDF, 이메일, 양식, 계약서 안에는 엄청난 양의 데이터가 들어 있지만, 이런 데이터는 '비정형 데이터' 또는 '다크 데이터'로 분류된다. 다크 데이터란 기업이 일상적으로 수집·처리·저장하면서도 다른 목적에는 거의 활용하지 못하는 정보를 뜻한다. 즉 기업들은 자동화나 분석에 쓸 수 있는 '데이터 금광' 위에 앉아 있으면서도 그것을 기계가 읽을 수 있는 형태로 꺼내지 못하고 있는 셈이다.

이 데이터를 구조화하는 방법은 현재 세 가지가 쓰인다. 첫째는 사람이 문서를 읽고 직접 시스템에 입력하는 수작업으로, 시간이 많이 들고 실수가 잦다. 둘째는 반자동 방식으로, 고정된 레이아웃의 문서를 OCR(광학 문자 인식) 기술로 파싱해 텍스트를 추출하지만 처리할 수 있는 문서 종류가 제한적이다. 셋째는 인공지능과 머신러닝으로 문서를 분석하고 정보를 추출하는 방법이다.

최근 몇 년간 AI·ML 기술이 빠르게 발전하면서, 이제는 다양한 종류의 문서를 읽고 내용을 파싱해 가치 있는 정보를 추출하는 일이 가능해졌다. 이 방식은 데이터 입력의 수고를 크게 덜어 주고 문서 처리 시간을 줄여 준다. 또 이런 애플리케이션을 클라우드에서 돌리면 문서량 변화에 맞춰 유연하게 확장할 수 있다. 문서 이해는 OCR, 이미지 인식, 자연어 처리, 개체 추출, 기계 번역, 데이터 유출 방지 등 여러 기술과 알고리즘이 결합된 매우 복잡한 머신러닝 분야다.

바로 여기에 Document AI가 등장한다. Document AI는 비정형 콘텐츠를 정형 데이터로 바꿔 주는 구글 클라우드의 관리형 서비스다. 단순히 문서를 읽고 조정하는 데 그치지 않고 문서의 공간적 구조까지 이해한다. 예컨대 일반 양식을 폼 파서에 넣으면 그 안에 질문과 답이 있다는 것을 인식해 키-값 쌍 형태로 돌려준다. 이렇게 정형화된 데이터는 고객 피드백 분석, 여러 페이지짜리 신청서 처리, 대시보드 데이터 소스 추가 등에 곧바로 활용할 수 있으며, API를 호출하기만 하면 되므로 데이터 과학 전문성이 필요 없다.

Document AI는 크게 세 갈래로 나뉜다. 범용 Document AI는 거의 모든 문서를 처리하도록 설계되어 OCR, 구조화된 폼 파서, 문서 품질 분석을 포함한다. 특화 Document AI는 W-2, 운전면허증 같은 표준 양식과 인보이스·영수증처럼 형식 변동이 큰 문서 유형을 위한 사전 학습 모델을 제공하며, 이 모델들은 구글이 학습·관리한다. 나아가 머신러닝 코드를 직접 작성하지 않고도 자신만의 문서 유형에 맞춰 맞춤형 모델을 처음부터 학습하거나 기존 모델을 추가 학습할 수 있는 기능도 제공될 예정이다.

주요 인사이트

기업의 문제는 데이터가 없는 것이 아니라, 문서 안에 갇혀 활용되지 못하는 '다크 데이터'가 많다는 점이다.
수작업·OCR 반자동·AI의 세 방식은 정확도와 처리할 수 있는 문서 다양성에서 차이가 크며, AI 방식이 다양한 문서 유형으로 확장하기에 유리하다.
Document AI의 차별점은 글자만 읽는 게 아니라 문서의 공간 구조를 이해해 질문-답을 키-값 쌍으로 구조화한다는 데 있다.
API 호출만으로 문서 데이터를 앱에 통합할 수 있어, 데이터 과학 전문 인력 없이도 문서 자동화를 시작할 수 있다.
범용·특화·맞춤형으로 모델을 나눠 둔 덕분에, 표준 양식부터 형식이 제각각인 인보이스까지 단계적으로 대응할 수 있다.

자주 묻는 질문

다크 데이터란 무엇인가요?

기업이 일상 업무에서 수집·처리·저장하지만 다른 목적에는 거의 활용하지 못하는 정보를 말합니다. PDF·이메일·양식 같은 비정형 문서 속 데이터가 대표적입니다.

문서에서 데이터를 추출하는 방법에는 어떤 것이 있나요?

사람이 직접 입력하는 수작업, 고정 레이아웃 문서를 OCR로 파싱하는 반자동, 그리고 다양한 문서를 AI·머신러닝으로 분석·추출하는 방식의 세 가지가 있습니다.

Document AI는 일반 OCR과 무엇이 다른가요?

단순히 글자를 읽는 데 그치지 않고 문서의 공간 구조를 이해합니다. 예컨대 양식을 폼 파서에 넣으면 질문과 답을 인식해 키-값 쌍으로 돌려줍니다.

Document AI를 쓰려면 머신러닝 전문 지식이 필요한가요?

기본 활용은 API 호출만으로 가능해 데이터 과학 전문성이 없어도 됩니다. 또 향후에는 코드 없이 맞춤형 모델을 학습하는 기능도 제공될 예정입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗