AWS Glue

Preparazione dei dati semplice, scalabile e serverless

AWS Glue è un servizio di preparazione dei dati serverless che semplifica le operazioni di estrazione, pulizia, arricchimento, normalizzazione e caricamento dei dati per ingegneri dei dati, sviluppatori di estrazione, trasformazione e caricamento (ETL), analisti di dati e data scientist. AWS Glue riduce da mesi a pochi minuti il tempo necessario per iniziare ad analizzare i dati.

La preparazione dei dati è un processo di importanza fondamentale ma pieno di sfide. Per preparare i dati per l'analisi, innanzitutto è necessario estrarre i dati da diverse origini. Dopodiché i dati devono essere puliti, trasformati nel formato richiesto e caricati in database, data warehouse e data lake per analisi ulteriori. Queste attività sono spesso condotte da gruppi diversi con strumenti differenti.

AWS Glue fornisce interfacce visive e basate su codice per facilitare la preparazione dei dati. Gli ingegneri dei dati e gli sviluppatori ETL possono utilizzare AWS Glue Studio per creare, eseguire e monitorare flussi di lavoro ETL in pochi clic. Gli analisti di dati e i data scientist possono utilizzare AWS Glue DataBrew per pulire e normalizzare visivamente i dati senza scrivere codice.

Introducing AWS Glue (1:47)

Vantaggi

Preparazione più veloce dei dati

AWS Glue fornisce strumenti integrati a tutti gli utenti per semplificare la preparazione dei dati per l'analisi e il machine learning. Gruppi diversi all'interno dell'organizzazione possono lavorare insieme per preparare i dati, comprese attività di estrazione, pulizia, normalizzazione, caricamento ed esecuzione di flussi di lavoro ETL scalabili. In questo modo, puoi ridurre da mesi a pochi minuti il tempo necessario per iniziare ad analizzare i dati.

Automatizzazione su vasta scala

AWS Glue automatizza molti degli sforzi richiesti per la preparazione dei dati. AWS Glue effettua ricerche per indicizzazione nelle origini dati, identifica i formati dei dati e suggerisce schemi per il loro storage. Genera inoltre automaticamente il codice per eseguire le trasformazioni e i processi di caricamento dei dati. AWS Glue può essere utilizzato per eseguire e gestire con facilità migliaia di processi ETL al fine di preparare in modo efficiente petabyte di dati per l'analisi e il machine learning.

Nessun server da gestire

AWS Glue esegue Apache Spark e Python in un ambiente serverless. Non è presente alcuna infrastruttura da gestire, e AWS Glue effettua il provisioning, la configurazione e il dimensionamento delle risorse necessarie per eseguire le attività di preparazione dei dati. I prezzi sono calcolati in base alle risorse impiegate per l'esecuzione dei processi.

Casi d'uso


Visualizzazione unificata di tutti i dati su più datastore

Il catalogo dati di AWS Glue può essere impiegato per rilevare e rendere ricercabili diversi set di dati in AWS in modo rapido senza spostarli. Una volta catalogati, i dati sono immediatamente ricercabili e interrogabili con Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

Creazione ed esecuzione di attività ETL in AWS Glue

Pipeline ETL attivate da eventi

AWS Glue può eseguire attività ETL appena arrivano nuovi dati. Ad esempio, è possibile utilizzare una funzione AWS Lambda per attivare un processo ETL appena diventano disponibili nuovi dati in Amazon S3. È anche possibile registrare il nuovo set di dati nel catalogo dati di AWS Glue come parte dei processi ETL.

Diagramma delle pipeline ETL guidate da eventi

ETL sui Big Data senza scrittura di codice

AWS Glue Studio facilita la creazione, l'esecuzione e il monitoraggio visivi delle attività ETL di AWS Glue. È possibile combinare attività ETL che spostano e trasformano i dati ed eseguirle su AWS Glue. È quindi possibile utilizzare il pannello di controllo dell'esecuzione delle attività di AWS Glue Studio per monitorare l'esecuzione delle attività ETL e verificare che vengano svolte come previsto. Scopri di più su AWS Glue Studio qui.

Strumento di ETL visivo per gli sviluppatori ETL

Preparazione visiva self-service dei dati

AWS Glue DataBrew consente di esplorare e sperimentare con i dati direttamente da data lake, data warehouse e database, inclusi Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora e Amazon RDS. Puoi scegliere tra oltre 250 trasformazioni integrate in AWS Glue DataBrew per automatizzare le attività di preparazione dei dati, come filtro delle anomalie, standardizzazione dei formati e correzione dei valori non validi. Dopo la preparazione, i dati possono essere utilizzati immediatamente per l'analisi e il machine learning. Scopri di più su AWS Glue DataBrew qui.

Pulizia e normalizzazione visive dei dati

Novità

data
  • data
1
Caratteristiche di AWS Glue
Scopri le caratteristiche di AWS Glue

Ulteriori informazioni sulle caratteristiche chiave di AWS Glue.

Ulteriori informazioni 
Registrati per creare un account AWS
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia subito a creare nella console
Inizia a creare in AWS Glue

Inizia subito a creare con AWS Glue nell'interfaccia ETL visiva.

Accedi