Qualità dei dati di AWS Glue

Fornisci dati di alta qualità a tutti i data lake e le pipeline

Senza un'adeguata supervisione, i data lake possono diventare paludi di dati. L'impostazione dei controlli della qualità dei dati è lunga, noiosa e soggetta a errori. È necessario creare manualmente regole di qualità dei dati e scrivere codice per monitorare le pipeline di dati e avvisare i consumatori di dati quando la qualità dei dati peggiora. La qualità dei dati di AWS Glue riduce questi sforzi manuali di qualità da giorni a ore. Calcola automaticamente le statistiche, consiglia regole di qualità, monitora e avvisa l'utente quando rileva problemi. Per problemi nascosti e difficili da trovare, la qualità dei dati di Glue utilizza algoritmi ML. La potenza combinata dell'approccio basato su regole e ML, insieme alla soluzione serverless, dimensionabile e aperta, consente di fornire dati di alta qualità per prendere decisioni aziendali sicure. 

Panoramica di Qualità dei dati di AWS Glue (1:27)

Funzionalità di Qualità dei dati di AWS Glue

AWS Glue è serverless, quindi è possibile scalare senza dover gestire l'infrastruttura. È scalabile per qualsiasi dimensione di dati e prevede la fatturazione pay-as-you-go per aumentare l'agilità e migliorare i costi. AWS Glue Data Quality utilizza Deequ, un framework open-source costruito da Amazon per la gestione di set di dati su scala petabyte. Essendo costruito in open source, Qualità dei dati di AWS Glue offre flessibilità e portabilità senza alcun vincolo.
AWS Glue Data Quality calcola automaticamente le statistiche per i set di dati. Utilizza queste statistiche per raccomandare un insieme di regole di qualità che controllano l'aggiornamento, l'accuratezza l'integrità e persino i problemi difficili da individuare. Puoi modificare le regole consigliate, scartarle o aggiungerne di nuove, se necessario. Se rileva problemi di qualità, Qualità dei dati di AWS Glue avvisa anche l'utente in modo che possa intervenire.
Qualità dei dati di AWS Glue è intelligente. Apprende schemi in base alle statistiche di dati raccolte nel tempo utilizzando algoritmi di ML. Rileva anomalie, schemi di dati insoliti e avvisa gli utenti. Inoltre, crea automaticamente delle regole per monitorare questi schemi specifici in modo da poter creare progressivamente regole di qualità dei dati.
I dati si trovano in diversi repository e si spostano da un repository all'altro. È importante monitorare la qualità dei dati sia quando arrivano a destinazione sia quando sono in transito. Le regole di Qualità dei dati di AWS Glue possono essere applicate ai dati a riposo nei set di dati e nei data lake e a intere pipeline di dati in movimento. È possibile applicare regole a più set di dati. Per le pipeline di dati costruite su AWS Glue Studio, puoi applicare una trasformazione per valutare la qualità dell'intera pipeline a costi nettamente inferiori, poiché i dati si trovano già nella memoria. Inoltre, puoi definire regole per interrompere la pipeline in caso di deterioramento della qualità, evitando che i dati scadenti finiscano nei data lake.
Utilizza oltre 25 regole preconfigurate della Qualità dei dati di AWS Glue per convalidare i dati e identificare i dati specifici che causano problemi. Implementa controlli della qualità dei dati che confrontano diversi set di dati in diverse origini dati in pochi minuti con regole predefinite. Utilizzando Glue ETL è possibile risolvere facilmente questi problemi e inserire dati di alta qualità nei repository di dati.