AWS Glue는 데이터 카탈로그를 작성하고, 정리하고, 보강하고, 데이터 스토어 간에 안정적으로 이동하는 데 사용할 수 있는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS Glue를 사용하면 ETL 작업을 생성하는 데 걸리는 비용, 복잡성 및 시간을 대폭 절감할 수 있습니다. AWS Glue는 서버리스이므로, 설정하거나 관리할 인프라가 없습니다. 작업이 실행되는 동안 사용한 리소스에 대한 비용만 지불하면 됩니다.

ETL을 시작할 준비가 되셨습니까?

AWS Glue 시작하기
100x100_benefit_ingergration

AWS Glue 데이터 카탈로그는 데이터의 위치와 관계없이 모든 데이터 자산을 위한 영구 메타데이터 스토어입니다. 데이터 카탈로그에는 AWS Glue 환경을 관리하는 데 도움이 되는 테이블 정의, 작업 정의 및 기타 제어 정보가 담겨 있습니다. 데이터 카탈로그는 데이터에 대한 쿼리를 효율적이고 비용 효과적으로 수행할 수 있도록 자동으로 통계를 계산하고 파티션을 등록합니다. 또한, 종합적인 스키마 버전 내역을 유지 관리하므로 시간이 지나면서 데이터가 어떻게 변경되었는지 파악할 수 있습니다.

100x100_benefit_automated

AWS Glue 크롤러는 소스 또는 대상 데이터 스토어에 연결하고, 우선순위가 지정된 분류기 목록을 거치면서 데이터의 스키마를 결정한 후, AWS Glue 데이터 카탈로그에 메타데이터를 생성합니다. 메타데이터는 데이터 카탈로그의 테이블에 저장되고 ETL 작업의 승인 프로세스에 사용됩니다. 크롤러를 일정에 따라 또는 온디맨드로 실행하거나 이벤트를 기반으로 트리거하여 메타데이터를 최신 상태로 유지할 수 있습니다.

100x100_benefit_code

AWS Glue는 코드를 자동 생성하여 데이터를 추출, 변환 및 로드합니다. Glue가 데이터 소스 및 대상을 가리키도록 하기만 하면, Glue가 ETL 스크립트를 생성하여 데이터를 변환, 평면화 및 보강합니다. 코드는 Python에서 생성되며 Apache Spark 2.1 환경에 맞춰 작성됩니다.

100x100_benefit_tools

ETL 코드를 대화식으로 개발하도록 선택하면, Glue가 생성한 코드를 사용자가 편집, 디버깅 및 테스트할 수 있도록 개발 엔드포인트를 제공합니다. 사용자는 선호하는 IDE 또는 노트북을 사용할 수 있습니다. 사용자 지정 리더, 라이터 또는 변환 기능을 작성한 후, 이를 ETL 작업에 사용자 지정 라이브러리로 가져올 수 있습니다. 또한, GitHub 리포지토리에서 다른 개발자와 함께 코드를 사용하고 공유할 수 있습니다.

100x100_benefit_monitoring-logging

AWS Glue 작업은 일정에 따라, 온디맨드로 또는 이벤트를 기반으로 호출될 수 있습니다. 여러 개의 작업을 병렬로 시작하거나 작업 간에 종속성을 지정하여 복잡한 ETL 파이프라인을 구축할 수 있습니다. Glue는 모든 내부 작업 종속성을 처리하고, 잘못된 데이터를 필터링하고, 실패 시 작업을 다시 수행합니다. 모든 로그와 알림이 Amazon CloudWatch로 푸시되므로 중앙 서비스에서 알림을 모니터링하고 받을 수 있습니다.

쉽게 AWS Glue를 시작할 수 있습니다. AWS Management Console에 로그인하여 [Analytics] 카테고리 아래의 [Glue]로 이동하기만 하면 됩니다.

ETL을 시작할 준비가 되셨습니까?

AWS Glue 시작하기