게시된 날짜: Jun 6, 2023

AWS가 데이터 레이크 및 데이터 파이프라인 품질을 자동으로 측정하고 모니터링하는 기능인 AWS Glue Data Quality의 정식 버전을 발표했습니다. AWS Glue는 여러 소스에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 지원하는 확장 가능한 서버리스 데이터 통합 및 추출, 전환, 적재(ETL) 서비스입니다.

AWS Glue Data Quality는 데이터 통계를 수집하기 위해 데이터를 자동으로 분석함으로써 수동으로 데이터 품질 작업을 할 필요성을 줄이는 데 도움이 됩니다. 오픈 소스 Deequ를 사용하여 규칙을 평가하고 페타바이트 규모의 데이터 레이크의 데이터 품질을 측정 및 모니터링합니다. 그런 다음 품질 관리를 시작하는 데 사용할 수 있는 데이터 품질 규칙을 추천합니다. 권장 규칙을 업데이트하거나 새 규칙을 추가할 수 있습니다. 데이터 품질이 저하되는 경우 사용자에게 이를 알리고 문제의 근본 원인을 드릴다운하는 작업을 구성할 수 있습니다. 또한 AWS Glue 데이터 파이프라인에서 데이터 품질 규칙 및 작업을 구성할 수 있으므로 ‘잘못된’ 데이터가 데이터 레이크 및 데이터 웨어하우스에 유입되는 것을 방지할 수 있습니다.

정식 버전에서는 데이터 품질 검사에 실패한 특정 레코드를 식별하는 새로운 기능을 출시하고 다양한 데이터 세트에서 데이터 일관성을 검증하는 새 규칙을 추가했습니다. 이제 AWS Glue 데이터 카탈로그에 나열된 Amazon Redshift, Apache Iceberg, Apache HUDI, Delta Lake 데이터 세트의 데이터 품질을 검증할 수 있습니다. 이제 AWS Glue Data Quality 결과가 Amazon EventBridge에 게시되므로 사용자에게 알림을 제공하는 방식을 간소화하고 데이터 품질 결과를 다른 애플리케이션과 통합할 수 있습니다. 이러한 기능은 다양한 데이터 세트에서 강력한 데이터 품질 검사를 수행하고 수정해야 할 문제를 식별하는 데 도움이 됩니다.

AWS Glue Data Quality는 AWS Glue가 제공되는 모든 AWS 리전에서 사용할 수 있습니다.

자세히 알아보려면 AWS Glue Data Quality로 이동하세요.