게시된 날짜: Nov 30, 2022

AWS Glue의 AWS Glue Data Quality 미리 보기가 발표되었습니다. Data Quality는 데이터 레이크 및 데이터 파이프라인 품질을 자동으로 측정하고 모니터링하는 새로운 기능입니다. AWS Glue는 여러 소스에서 데이터를 더욱 효율적으로 검색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한 서버리스 데이터 통합 서비스입니다. 현재는 시간이 많이 걸리는 수동 데이터 품질 관리 방식이 널리 사용되고 있습니다. 수동 방식에서는 데이터 품질 규칙을 설정한 후 해당 규칙을 기준으로 하여 데이터를 반복적으로 검증해야 하며, 코드를 작성하여 품질 저하 시 표시되는 알림도 설정해야 합니다. 분석가는 수동으로 데이터를 분석하고 규칙을 작성한 다음 이러한 규칙을 구현하는 코드를 작성해야 합니다. 

AWS Glue Data Quality는 데이터를 자동으로 분석하여 데이터 통계를 수집합니다. 그런 다음 품질 관리를 시작하는 데 사용할 수 있는 데이터 품질 규칙을 추천합니다. 권장 규칙을 업데이트할 수도 있고 제공된 데이터 품질 규칙을 사용하여 새 규칙을 추가할 수도 있습니다. 데이터 품질이 저하되면 사용자에게 알림을 제공하는 작업을 구성할 수 있습니다. 데이터 파이프라인의 AWS Glue 추출, 전환, 적재(ETL) 작업에서 데이터 품질 규칙과 작업을 구성할 수도 있습니다. 이러한 지침을 따르면 “불량한” 데이터가 데이터 레이크와 데이터 웨어하우스에 추가되는 상황을 방지할 수 있습니다. AWS Glue는 서버리스 서비스이므로 인프라를 관리할 필요가 없습니다. 그리고 AWS Glue Data Quality는 오픈 소스 Deequ를 사용하여 규칙을 평가합니다. AWS는 Deequ를 사용하여 페타바이트급 데이터 레이크의 데이터 품질을 측정 및 모니터링합니다.  

AWS Glue Data Quality가 평가판으로 제공되는 AWS 리전은 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), 아시아 태평양(도쿄), 유럽(아일랜드)입니다.

자세한 내용을 알아보려면 AWS Glue Data Quality 설명서에서 저장 데이터의 데이터 품질 및 데이터 파이프라인의 데이터 품질 부분을 검토하세요.