glue란? - ShinHeeEul/exerciseELK GitHub Wiki

glue란?

  • 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있는 서버리스 데이터 통합 서비스
  • ETL 파이프라인을 시각적으로 생성, 실행, 모니터링 하여 데이터 레이크에 데이터를 로드하 수 있음.
  • Athena 등을 활용해 즉시 검색하고 쿼리 가능

glue 기능

  • 데이터 검색 및 구성
  • 분석을 위한 데이터 변환, 준비, 정리
  • 데이터 파이프라인 구축 및 모니터링

glue 내부 구조

HowItWorks-overview

데이터 카탈로그

  • ETL 워크 플로우를 위한 테이블 정의, 작업 정의 및 기타 제어 정보가 포함되어 있는 메타데이터 저장소

크롤러

  • 데이터 소스에 연결하고, 데이터 스키마를 추론하고, 데이터 카탈로그에서 메타데이터 테이블 정의를 만드는 프로그램

ETL 작업

  • 소스에서 데이터를 추출하고, Apache Spark를 사용해, 데이터를 변환하고 타겟에 로드하는 비즈니스 로직

트리거

  • 일정이나 이벤트를 기반으로 작업 실행하는 메커니즘

워크 플로

  1. 데이터 카탈로그에서 데이터 소스 및 타겟을 정의합니다.
  2. 크롤러를 사용하여 데이터 소스의 테이블 메타데이터로 데이터 카탈로그를 채웁니다.
  3. 변환 스크립트로 ETL 작업을 정의하여 데이터를 이동하고 처리합니다.
  4. 온디맨드 또는 트리거를 기반으로 작업을 실행합니다.
  5. 대시보드를 사용하여 작업 성과를 모니터링합니다.

참고

https://docs.aws.amazon.com/ko_kr/glue/latest/dg/what-is-glue.html https://docs.aws.amazon.com/ko_kr/glue/latest/dg/components-key-concepts.html