AI VIDEO BRIEFING

데이터 엔지니어링 기초: ETL·데이터 웨어하우스·OLAP·스타 스키마 한 번에

AI로 분석가와 엔지니어의 경계가 흐려지는 가운데, 배달 앱 예시로 ETL·데이터 레이크·웨어하우스·메달리온 아키텍처·스타 스키마 같은 데이터 엔지니어링 핵심 개념을 정리한다.

데이터 분석가를 위한 데이터 엔지니어링 입문: ETL부터 스타 스키마까지 영상 대표 이미지

핵심 메시지

  • AI 자동화로 데이터 분석가와 데이터 엔지니어의 역할이 점점 합쳐지면서, 분석가에게도 데이터 엔지니어링 기초가 요구된다.
  • 거래용 OLTP 데이터는 분석에 바로 쓰기 어려워, ETL(추출·변환·적재)을 거쳐 '분석 준비된' 데이터로 만들어 데이터 웨어하우스에 적재한다.
  • 데이터 레이크는 원시 데이터를 싸게 쌓는 곳, 데이터 웨어하우스는 정제된 구조화 데이터를 두는 곳이며, 둘을 합친 것이 레이크하우스다.
  • 메달리온 아키텍처는 브론즈(원시)·실버(정제)·골드(비즈니스 집계) 세 단계로 데이터 품질을 점진적으로 높인다.
  • OLAP 분석을 위해 사실·차원 테이블로 모델링하면 스타·스노우플레이크 스키마가 되고, 차원 변화는 SCD로 다룬다.

쉽게 이해하기

강의는 AI 때문에 데이터 분석가와 엔지니어의 경계가 점차 사라지고 있다는 현실에서 출발한다. 분석가가 하던 저수준 기술 작업이 자동화되면서, 기업은 분석가가 데이터 수명주기의 다른 영역, 특히 데이터 엔지니어링에도 기여하기를 기대한다. 빠른 배달 서비스(블링킷) 주문을 예로 들어, 주문은 Postgres에, 재고는 MongoDB에, 채팅 기록은 S3의 JSON 등 비정형으로, 위치는 스트리밍으로 저장되는 식으로 한 비즈니스에 정형·비정형·스트리밍 데이터가 섞여 있음을 보여준다.

경영진은 '정시·전량 배송 비율은?', '평점이 낮은 매장은?', '할인하면 매출이 오를까?' 같은 질문을 던진다. 앞의 둘은 과거를 보는 기술적(descriptive) 분석이지만, 마지막은 미래를 예측하는 예측(predictive) 분석으로 AI가 필요하다. 핵심은 앱에서 쌓이는 거래(transactional) 데이터와 분석에 바로 쓸 수 있는 '분석 준비된' 데이터의 형태가 다르다는 점이다. 그래서 추출·변환·적재(ETL)를 거쳐 데이터 웨어하우스에 적재한다.

거래용 시스템은 OLTP(온라인 트랜잭션 처리)로 미션 크리티컬하기 때문에, 분석가가 무거운 쿼리를 직접 돌리면 장애를 일으킬 수 있다. 그래서 복제본을 만들고 변환까지 더해 분석용 OLAP(온라인 분석 처리)로 분리한다. 이때 원시 데이터를 값싸게 쌓아두는 스테이징 영역이 곧 데이터 레이크다(S3, ADLS, GCS 등). 데이터 레이크는 정형·비정형 원시 데이터를 싸게 보관하고 감사·이력 추적에 유용한 반면, 데이터 웨어하우스(Redshift, BigQuery 등)는 정제된 구조화 데이터를 두고 빠른 SQL과 ACID 트랜잭션을 보장한다.

이 둘의 장점을 합친 것이 레이크하우스이며, 데이터브릭스의 델타 레이크와 아파치 아이스버그가 대표적이다. 변환 순서를 바꾼 ELT(추출·적재 후 웨어하우스 안에서 변환)는 클라우드 네이티브 환경에서 더 현대적인 방식으로, DBT 같은 도구로 분석가가 직접 변환을 버전 관리할 수 있다. 다만 개인정보·규제 준수가 필요하거나 온프레미스·구형 웨어하우스를 쓸 때는 ETL이 선호된다. 데이터 품질을 점진적으로 올리는 메달리온 아키텍처는 원시(브론즈)·정제(실버)·비즈니스 집계(골드)의 세 계층으로 이를 정리한다.

마지막으로 강의는 파일 포맷과 데이터 모델링을 다룬다. 행 기반 CSV·JSON은 데이터 교환에, 열 기반 Parquet는 압축·쿼리 속도 면에서 대규모 분석에 유리하다. 같은 데이터라도 JSON(16KB)보다 Parquet(7KB)가 작다는 점을 코드로 보여준다. 정규화/비정규화, 기본키·외래키로 정의하는 데이터 모델링을 거쳐, OLAP에서는 사실(fact)·차원(dimension) 테이블로 구성하는 차원 모델링을 소개한다. 가운데 사실 테이블에 차원을 붙이면 스타 스키마, 차원을 더 쪼개면 스노우플레이크 스키마가 된다(킴벨이 정립). 고객의 거주지 변경처럼 차원이 바뀌는 경우는 단순 덮어쓰기(SCD 1형)와 시작·종료일로 이력을 남기는 방식(SCD 2형)으로 다룬다.

주요 인사이트

  • AI가 저수준 작업을 자동화하면서 분석가에게 데이터 엔지니어링 역량이 새로운 기본기로 요구된다.
  • OLTP를 직접 분석하면 장애 위험이 있어, 복제·변환을 거친 OLAP로 분리하는 것이 정석이다.
  • 데이터 레이크(원시·저비용)와 웨어하우스(정제·고성능)의 차이를 이해하면 레이크하우스의 가치가 보인다.
  • 현대 클라우드 환경에서는 ETL보다 ELT가 흔하지만, 규제·보안·온프레미스 상황에서는 여전히 ETL이 선호된다.
  • 스타/스노우플레이크 스키마와 SCD는 OLAP 분석을 빠르고 정확하게 만드는 차원 모델링의 핵심 도구다.

자주 묻는 질문

ETL과 ELT의 차이는 무엇인가요?

ETL은 추출·변환 후 웨어하우스에 적재하고, ELT는 추출·적재 후 웨어하우스 안에서 변환합니다. ELT는 클라우드 네이티브 환경의 현대적 방식이고, 규제·보안·온프레미스 상황에서는 ETL이 선호됩니다.

데이터 레이크와 데이터 웨어하우스는 어떻게 다른가요?

데이터 레이크는 정형·비정형 원시 데이터를 값싸게 저장하는 곳이고, 데이터 웨어하우스는 정제된 구조화 데이터를 두어 빠른 SQL 분석과 ACID 트랜잭션을 보장합니다. 둘을 합친 것이 레이크하우스입니다.

메달리온 아키텍처의 세 계층은 무엇인가요?

브론즈(원시 데이터), 실버(정제·중복 제거 데이터), 골드(비즈니스 수준의 집계·KPI 데이터)입니다. 데이터를 점진적으로 정제해 품질을 높이는 설계 패턴입니다.

스타 스키마와 스노우플레이크 스키마의 차이는?

가운데 사실(fact) 테이블에 차원(dimension) 테이블을 붙인 형태가 스타 스키마이고, 차원 테이블을 더 세분화해 또 다른 차원으로 쪼개면 스노우플레이크 스키마가 됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗
#데이터엔지니어링#ETL#데이터웨어하우스#데이터레이크#스타스키마