데이터 레이크 및 파이프라인에서 고품질 데이터 제공
수십만의 고객이 데이터 레이크를 구축함에 따라, 데이터 품질이 배제된 ‘데이터 늪’이 만들어질 수 있습니다. 데이터 품질을 설정하는 프로세스는 시간이 많이 걸리고 번거롭습니다. 데이터 품질 규칙을 수동으로 분석 및 생성하고 품질이 저하될 경우 알려주는 코드를 작성해야 합니다. AWS Glue Data Quality는 이러한 수동 품질 작업에 소요되는 시간을 며칠에서 몇 시간으로 단축합니다. AWS Glue Data Quality는 자동으로 통계를 계산하고 품질 규칙을 권장하며 품질이 저하된 것을 감지하면 사용자에게 알립니다. 따라서 비즈니스에 영향을 미치기 전에 누락되거나 오래되거나 잘못된 데이터를 찾아내는 프로세스가 간소화됩니다.
주요 기능
고객의 데이터에 맞춤화된 자동 규칙 권장
데이터 품질 규칙을 생성하려면 데이터를 수동으로 분석해야 하므로 데이터 품질 설정을 시작하기가 어려울 수 있습니다. AWS Glue Data Quality는 데이터 세트에 대한 통계를 자동으로 계산합니다. 또한 이러한 통계를 사용하여 시의성, 정확성 및 무결성을 확인하는 일련의 품질 규칙을 권장합니다. 필요에 따라 권장 규칙을 조정하거나 규칙을 폐기하거나 새 규칙을 추가할 수 있습니다. 또한 품질 문제가 감지되면 AWS Glue Data Quality는 조치를 취할 수 있도록 알림을 보냅니다.
저장 시와 파이프라인에서 데이터 품질 실현
데이터는 다양한 리포지토리에 저장되며 리포지토리 간에 이동합니다. 데이터가 전송된 후와 전송되는 동안 모두 데이터 품질을 모니터링하는 것이 중요합니다. AWS Glue Data Quality 규칙은 데이터 세트 및 데이터 레이크의 저장 데이터와 데이터가 이동 중인 전체 데이터 파이프라인에 적용할 수 있습니다. AWS Glue Studio에 구축된 데이터 파이프라인의 경우 변환을 적용하여 전체 파이프라인의 품질을 평가할 수 있습니다. 또한 품질이 저하될 경우 파이프라인을 중지하여 잘못된 데이터가 데이터 레이크에 유입되는 것을 방지하는 규칙을 정의할 수도 있습니다.
공급업체 종속 없는 비용 효율적인 서버리스 페타바이트급 데이터 품질 솔루션
AWS Glue는 서버리스 서비스이므로, 인프라를 관리하지 않고도 확장할 수 있습니다. 규모에 관계없이 데이터에 맞추어 확장할 수 있으며 종량제 과금을 통해 민첩성을 높이고 비용을 개선합니다. AWS Glue Data Quality는 페타바이트 규모의 데이터 세트를 관리하도록 Amazon이 구축한 오픈 소스 프레임워크인 Deequ를 사용합니다. AWS Glue Data Quality는 오픈 소스를 사용하여 구축되었기 때문에 공급업체 종속 없이 유연성과 이동성이 보장됩니다.