AWS Glue

Servizio di estrazione, trasferimento e caricamento (ETL) semplice, flessibile e a costi contenuti

AWS Glue è un servizio di estrazione, trasferimento e caricamento (ETL) che semplifica la preparazione e il caricamento dei dati in strumenti di analisi. Per avviare un processo ETL sono sufficienti pochi clic nella Console di gestione AWS. Una volta indicato il percorso di memorizzazione in AWS, il servizio rileva automaticamente i dati e ne memorizza i metadati (ad esempio le definizioni di tabella e gli schemi) nel proprio catalogo AWS Glue. Nel momento in cui questa operazione viene completata, le informazioni sono immediatamente ricercabili, interrogabili e disponibili per processi ETL.

Introduzione ad AWS Glue (1:47)

Vantaggi

Meno problemi

AWS Glue si integra con un’ampia gamma di servizi AWS, offrendoti un’esperienza molto agile durante l’onboarding. AWS Glue offre il supporto nativo per i dati memorizzati in Amazon Aurora, e per tutti i motori di Amazon RDS, Amazon Redshift e Amazon S3, nonché nei comuni motori di database e nei database del tuo Virtual Private Cloud (Amazon VPC) in Amazon EC2.

Prezzi contenuti

AWS Glue è un servizio serverless. Non è necessario allocare o gestire alcuna infrastruttura. AWS Glue gestisce provisioning, configurazione e ricalibrazione delle risorse necessarie per l'esecuzione dei processi ETL in modo completamente gestito in un ambiente Apache Spark flessibile e a scalabilità orizzontale. I prezzi sono calcolati in base alle risorse impiegate per l'esecuzione dei processi.

Più potenza

AWS Glue automatizza la maggior parte del lavoro necessario per creare, mantenere ed eseguire processi ETL. Effettua ricerche per indicizzazione nelle origini dati, identifica i formati e suggerisce schemi e trasformazioni. Inoltre, genera automaticamente il codice necessario per eseguire le trasformazioni e i processi di caricamento.

 

 

Come funziona

Seleziona origine dati e destinazione dati. AWS Glue genererà in Scala o Python il codice ETL necessario per estrarre i dati dall'origine, trasformandoli secondo lo schema di destinazione e caricandone i risultati nella destinazione configurata. È possibile apportare modifiche, eseguire il debug e testare il codice tramite la console, in un ambiente IDE personalizzato o in un qualsiasi notebook.

Fase 1: crea un catalogo dati
Fase di creazione del tuo catalogo dati

Per iniziare, usa la console di gestione AWS per registrare le origini dati. AWS Glue effettua ricerche per indicizzazione nelle origini dati e crea un catalogo dati utilizzando classificatori predefiniti per molti formati di origine comuni, fra cui JSON, CSV, Parquet e altri.

Fase 2: genera e modifica le trasformazioni
Fase di generazione e modifica delle trasformazioni

Seleziona quindi origine dati e destinazione dati. AWS Glue genererà in Scala o Python il codice ETL necessario per estrarre i dati dall'origine, trasformandoli secondo lo schema di destinazione e caricandone i risultati nella destinazione configurata. È possibile apportare modifiche, eseguire il debug e testare il codice tramite la console, in un ambiente IDE personalizzato o in un qualsiasi notebook.

Fase 3: pianifica ed esegui i processi
Fase di pianificazione ed esecuzione dei processi

AWS Glue semplifica la pianificazione di processi ETL ricorrenti e il collegamento di diversi processi e offre la possibilità di richiamare processi on demand da altri servizi, ad esempio AWS Lambda. AWS Glue gestisce le dipendenze tra diversi processi, ricalibrando automaticamente le risorse e avviando nuovamente processi con errori.

Visita la pagina delle caratteristiche di AWS Glue o consulta la documentazione sul prodotto per ulteriori informazioni.

Casi d'uso

Query in data lake Amazon S3

I data lake sono un metodo molto diffuso per memorizzare e analizzare dati strutturati e non strutturati. Se desideri creare il tuo data lake Amazon S3 personalizzato, AWS Glue è in grado di rendere tutte le informazioni contenute disponibili all'analisi senza alcun trasferimento.

Per creare in pochi giorni un data lake sicuro, consulta la sezione AWS Lake Formation.

Diagramma di query in data lake Amazon S3

Analisi di dati di log in un data warehouse

Prepara i dati di log di clickstream o di elaborazione per l'analisi tramite processi di pulitura, normalizzazione e arricchimento dei set di dati con AWS Glue. Il servizio genera lo schema per dati parzialmente strutturati, crea il codice ETL per trasformare, snellire e arricchire i dati e li carica periodicamente nel data warehouse.

Diagramma di analisi di dati di log in un data warehouse

Visualizzazione unificata di tutti i dati su più datastore

Il catalogo dati di AWS Glue può essere impiegato per rilevare e rendere ricercabili diversi set di dati in AWS in modo rapido senza spostarli. Una volta catalogati, i dati sono immediatamente ricercabili e interrogabili con Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

Diagramma di visualizzazione di dati tra datastore

Pipeline ETL attivate da eventi

AWS Glue può eseguire i processi ETL in seguito ad eventi, ad esempio l'acquisizione di un nuovo set di dati. Ad esempio, è possibile utilizzare una funzione AWS Lambda per attivare un processo ETL appena diventano disponibili nuovi dati in Amazon S3. È anche possibile registrare il nuovo set di dati nel catalogo dati di AWS Glue come parte dei processi ETL.

Diagramma delle pipeline ETL attivate da eventi
Immagine pagina web
Scopri le caratteristiche del prodotto

Ulteriori informazioni sulle caratteristiche chiave di Amazon Glue.

Ulteriori informazioni 
Account-signup image
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Toolbox image
Inizia subito nella console

Inizia subito a utilizzare Amazon Glue nella Console di gestione AWS.

Accedi