glue란? - ShinHeeEul/exerciseELK GitHub Wiki
glue란?
- 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있는 서버리스 데이터 통합 서비스
- ETL 파이프라인을 시각적으로 생성, 실행, 모니터링 하여 데이터 레이크에 데이터를 로드하 수 있음.
- Athena 등을 활용해 즉시 검색하고 쿼리 가능
glue 기능
- 데이터 검색 및 구성
- 분석을 위한 데이터 변환, 준비, 정리
- 데이터 파이프라인 구축 및 모니터링
glue 내부 구조
데이터 카탈로그
- ETL 워크 플로우를 위한 테이블 정의, 작업 정의 및 기타 제어 정보가 포함되어 있는 메타데이터 저장소
크롤러
- 데이터 소스에 연결하고, 데이터 스키마를 추론하고, 데이터 카탈로그에서 메타데이터 테이블 정의를 만드는 프로그램
ETL 작업
- 소스에서 데이터를 추출하고, Apache Spark를 사용해, 데이터를 변환하고 타겟에 로드하는 비즈니스 로직
트리거
- 일정이나 이벤트를 기반으로 작업 실행하는 메커니즘
워크 플로
- 데이터 카탈로그에서 데이터 소스 및 타겟을 정의합니다.
- 크롤러를 사용하여 데이터 소스의 테이블 메타데이터로 데이터 카탈로그를 채웁니다.
- 변환 스크립트로 ETL 작업을 정의하여 데이터를 이동하고 처리합니다.
- 온디맨드 또는 트리거를 기반으로 작업을 실행합니다.
- 대시보드를 사용하여 작업 성과를 모니터링합니다.
참고
https://docs.aws.amazon.com/ko_kr/glue/latest/dg/what-is-glue.html https://docs.aws.amazon.com/ko_kr/glue/latest/dg/components-key-concepts.html