통합된 데이터 카탈로그

AWS Glue 데이터 카탈로그는 데이터의 위치와 관계없이 모든 데이터 자산을 위한 영구 메타데이터 스토어입니다. 데이터 카탈로그에는 AWS Glue 환경을 관리하는 데 도움이 되는 테이블 정의, 작업 정의 및 기타 제어 정보가 담겨 있습니다. 데이터 카탈로그는 데이터에 대한 쿼리를 효율적이고 비용 효과적으로 수행할 수 있도록 자동으로 통계를 계산하고 파티션을 등록합니다. 또한, 종합적인 스키마 버전 내역을 유지 관리하므로 시간이 지나면서 데이터가 어떻게 변경되었는지 파악할 수 있습니다.

자동 스키마 검색

AWS Glue 크롤러는 소스 또는 대상 데이터 스토어에 연결하고, 우선순위가 지정된 분류기 목록을 거치면서 데이터의 스키마를 결정한 후, AWS Glue 데이터 카탈로그에 메타데이터를 생성합니다. 메타데이터는 데이터 카탈로그의 테이블에 저장되고 ETL 작업의 승인 프로세스에 사용됩니다. 크롤러를 일정에 따라 또는 온디맨드로 실행하거나 이벤트를 기반으로 트리거하여 메타데이터를 최신 상태로 유지할 수 있습니다.

코드 생성

AWS Glue는 코드를 자동 생성하여 데이터를 추출, 변환 및 로드합니다. Glue가 데이터 소스 및 대상을 가리키도록 하기만 하면, Glue가 ETL 스크립트를 생성하여 데이터를 변환, 평면화 및 보강합니다. 코드는 Scala 또는 Python에서 생성되며 Apache Spark에 맞춰 작성됩니다.

개발자 엔드포인트

ETL 코드를 대화식으로 개발하도록 선택하면, Glue가 생성한 코드를 사용자가 편집, 디버깅 및 테스트할 수 있도록 개발 엔드포인트를 제공합니다. 사용자는 선호하는 IDE 또는 노트북을 사용할 수 있습니다. 사용자 지정 리더, 라이터 또는 변환 기능을 작성한 후, 이를 ETL 작업에 사용자 지정 라이브러리로 가져올 수 있습니다. 또한, GitHub 리포지토리에서 다른 개발자와 함께 코드를 사용하고 공유할 수 있습니다.

유연한 작업 스케줄러

AWS Glue 작업은 일정에 따라, 온디맨드로 또는 이벤트를 기반으로 호출될 수 있습니다. 여러 개의 작업을 병렬로 시작하거나 작업 간에 종속성을 지정하여 복잡한 ETL 파이프라인을 구축할 수 있습니다. Glue는 모든 내부 작업 종속성을 처리하고, 잘못된 데이터를 필터링하고, 실패 시 작업을 다시 수행합니다. 모든 로그와 알림이 Amazon CloudWatch로 푸시되므로 중앙 서비스에서 알림을 모니터링하고 받을 수 있습니다.

AWS Glue 요금에 대해 자세히 알아보십시오

요금 페이지로 이동하기
구축할 준비가 되셨습니까?
AWS Glue 시작하기
추가 질문이 있으십니까?
문의하기