AWS Glue è un servizio di preparazione dei dati serverless che semplifica le operazioni di estrazione, pulizia, arricchimento, normalizzazione e caricamento dei dati per ingegneri dei dati, sviluppatori di estrazione, trasformazione e caricamento (ETL), analisti di dati e data scientist. AWS Glue riduce da mesi a pochi minuti il tempo necessario per iniziare ad analizzare i dati.
La preparazione dei dati è un processo di importanza fondamentale ma pieno di sfide. Per preparare i dati per l'analisi, innanzitutto è necessario estrarre i dati da diverse origini. Dopodiché i dati devono essere puliti, trasformati nel formato richiesto e caricati in database, data warehouse e data lake per analisi ulteriori. Queste attività sono spesso condotte da gruppi diversi con strumenti differenti.
AWS Glue fornisce interfacce visive e basate su codice per facilitare la preparazione dei dati. Gli ingegneri dei dati e gli sviluppatori ETL possono utilizzare AWS Glue Studio per creare, eseguire e monitorare flussi di lavoro ETL in pochi clic. Gli analisti di dati e i data scientist possono utilizzare AWS Glue DataBrew per pulire e normalizzare visivamente i dati senza scrivere codice.
Vantaggi
Preparazione più veloce dei dati
AWS Glue fornisce strumenti integrati a tutti gli utenti per semplificare la preparazione dei dati per l'analisi e il machine learning. Gruppi diversi all'interno dell'organizzazione possono lavorare insieme per preparare i dati, comprese attività di estrazione, pulizia, normalizzazione, caricamento ed esecuzione di flussi di lavoro ETL scalabili. In questo modo, puoi ridurre da mesi a pochi minuti il tempo necessario per iniziare ad analizzare i dati.
Automatizzazione su vasta scala
AWS Glue automatizza molti degli sforzi richiesti per la preparazione dei dati. AWS Glue effettua ricerche per indicizzazione nelle origini dati, identifica i formati dei dati e suggerisce schemi per il loro storage. Genera inoltre automaticamente il codice per eseguire le trasformazioni e i processi di caricamento dei dati. AWS Glue può essere utilizzato per eseguire e gestire con facilità migliaia di processi ETL al fine di preparare in modo efficiente petabyte di dati per l'analisi e il machine learning.
Nessun server da gestire
AWS Glue esegue Apache Spark e Python in un ambiente serverless. Non è presente alcuna infrastruttura da gestire, e AWS Glue effettua il provisioning, la configurazione e il dimensionamento delle risorse necessarie per eseguire le attività di preparazione dei dati. I prezzi sono calcolati in base alle risorse impiegate per l'esecuzione dei processi.
Casi d'uso
Visualizzazione unificata di tutti i dati su più datastore
Il catalogo dati di AWS Glue può essere impiegato per rilevare e rendere ricercabili diversi set di dati in AWS in modo rapido senza spostarli. Una volta catalogati, i dati sono immediatamente ricercabili e interrogabili con Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

Pipeline ETL attivate da eventi
AWS Glue può eseguire attività ETL appena arrivano nuovi dati. Ad esempio, è possibile utilizzare una funzione AWS Lambda per attivare un processo ETL appena diventano disponibili nuovi dati in Amazon S3. È anche possibile registrare il nuovo set di dati nel catalogo dati di AWS Glue come parte dei processi ETL.

ETL sui Big Data senza scrittura di codice
AWS Glue Studio facilita la creazione, l'esecuzione e il monitoraggio visivi delle attività ETL di AWS Glue. È possibile combinare attività ETL che spostano e trasformano i dati ed eseguirle su AWS Glue. È quindi possibile utilizzare il pannello di controllo dell'esecuzione delle attività di AWS Glue Studio per monitorare l'esecuzione delle attività ETL e verificare che vengano svolte come previsto. Scopri di più su AWS Glue Studio qui.

Preparazione visiva self-service dei dati
AWS Glue DataBrew consente di esplorare e sperimentare con i dati direttamente da data lake, data warehouse e database, inclusi Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora e Amazon RDS. Puoi scegliere tra oltre 250 trasformazioni integrate in AWS Glue DataBrew per automatizzare le attività di preparazione dei dati, come filtro delle anomalie, standardizzazione dei formati e correzione dei valori non validi. Dopo la preparazione, i dati possono essere utilizzati immediatamente per l'analisi e il machine learning. Scopri di più su AWS Glue DataBrew qui.

Novità

Ulteriori informazioni sulle caratteristiche chiave di AWS Glue.

Ottieni accesso istantaneo al piano gratuito di AWS.