AWS Glue
Cloud AWS
Inizia a usare AWS Glue

AWS Glue è un servizio di estrazione, trasferimento e caricamento (ETL) che semplifica la preparazione e il caricamento dei dati in strumenti di analisi. Per avviare un processo ETL sono sufficienti pochi clic nella Console di gestione AWS. Una volta indicato il percorso di memorizzazione in AWS, il servizio rileva automaticamente i dati e ne memorizza i metadati (ad esempio le definizioni di tabella e gli schemi) nel proprio catalogo. Nel momento in cui questa operazione viene completata, le informazioni sono immediatamente ricercabili, interrogabili e disponibili per processi ETL. Il codice necessario per eseguire le trasformazioni e i processi di caricamento dei dati viene generato da AWS Glue.

Il servizio genera infatti codice personalizzabile, riutilizzabile e portabile con sintassi Python. Quando un processo ETL è pronto, è possibile pianificarne l'esecuzione nell'ambiente Apache Spark flessibile e a scalabilità orizzontale di AWS Glue. AWS Glue offre uno strumento di pianificazione flessibile dotato di risoluzione di dipendenze, monitoraggio di processi e generazione di avvisi.

AWS Glue è un servizio serverless, perciò non è necessario acquistare, configurare o gestire alcuna infrastruttura. Effettuerà automaticamente il provisioning dell'ambiente necessario per completare il processo, addebitando solo i costi delle risorse di elaborazione effettivamente impiegate durante i processi ETL. Con AWS Glue, i dati sono pronti per l'analisi in pochi minuti.

Per ulteriori informazioni, partecipa al prossimo Tech Talk: Analisi serverless con Amazon Redshift Spectrum, AWS Glue e Amazon QuickSight Registrati subito >>

AWS Glue
1:47
Servizio ETL serverless, completamente gestito e ottimizzato per il cloud

Sei pronto ad avviare un processo ETL?

Inizia a usare AWS Glue


Semplicità

Semplicità

AWS Glue automatizza la maggior parte del lavoro necessario per creare, mantenere ed eseguire processi ETL. Effettua ricerche per indicizzazione nelle origini dati, identifica i formati e suggerisce schemi e trasformazioni. Inoltre, genera automaticamente il codice necessario per eseguire le trasformazioni e i processi di caricamento.

Integrazione

Integrazione

AWS Glue si integra con un'ampia gamma di servizi AWS. AWS Glue offre il supporto nativo per i dati memorizzati in Amazon Aurora, Amazon RDS per MySQL, Amazon RDS per Oracle, Amazon RDS per PostgreSQL, Amazon RDS per SQL Server, Amazon Redshift e Amazon S3, nonché nei database MySQL, Oracle, Microsoft SQL Server e PostgreSQL nei Virtual Private Cloud (Amazon VPC) in Amazon EC2. Il servizio offre inoltre di default l'integrazione con Amazon Athena, Amazon EMR, Amazon Redshift Spectrum e con qualsiasi applicazione compatibile con Apache Hive Metastore.

Serverless

Serverless

AWS Glue è un servizio serverless. Non è necessario allocare o gestire alcuna infrastruttura. AWS Glue gestisce provisioning, configurazione e ricalibrazione delle risorse necessarie per l'esecuzione dei processi ETL in modo completamente gestito in un ambiente Apache Spark flessibile e a scalabilità orizzontale. I prezzi sono calcolati in base alle risorse impiegate per l'esecuzione dei processi.

Ideale per sviluppatori

Ideale per sviluppatori

AWS Glue genera codice ETL personalizzabile, riutilizzabile e portabile utilizzando strumenti molto diffusi: Python e Spark. Inoltre è possibile importare processi di lettura, di scrittura e di trasformazione nel codice ETL di Glue. Poiché il codice generato è basato su framework, non è previsto alcun vincolo. Puoi usarlo ovunque desideri.


Fase 1: crea un catalogo dati
Fase 1: crea un catalogo dati

Fai clic per allargare

Per iniziare, usa la Console di gestione AWS per registrare le origini dati. AWS Glue effettua ricerche per indicizzazione nelle origini dati e crea un catalogo dati utilizzando classificatori predefiniti per molti formati di origine comuni, fra cui JSON, CSV, Parquet e altri.

Fase 2: genera e modifica le trasformazioni
Fase 2: genera e modifica le trasformazioni

Fai clic per allargare

Seleziona quindi origine dati e destinazione dati. AWS Glue genererà in Python il codice ETL necessario per estrarre i dati dall'origine, trasformandoli secondo lo schema di destinazione e caricandone i risultati nella destinazione configurata. È possibile apportare modifiche, eseguire il debug e testare il codice tramite la console, in un ambiente IDE personalizzato o in un qualsiasi notebook.

Fase 3: pianifica ed esegui i processi
Fase 3: pianifica ed esegui i processi

Fai clic per allargare

AWS Glue semplifica la pianificazione di processi ETL ricorrenti e il collegamento di diversi processi e offre la possibilità di richiamare processi on demand da altri servizi, ad esempio AWS Lambda. AWS Glue gestisce le dipendenze tra diversi processi, ricalibrando automaticamente le risorse e avviando nuovamente processi con errori.

Visita la pagina dei dettagli di AWS Glue o consulta la documentazione sul prodotto per ulteriori informazioni.


Prepara i dati di log di clickstream o di elaborazione per l'analisi tramite processi di pulitura, normalizzazione e arricchimento dei set di dati con AWS Glue. Il servizio genera lo schema per dati parzialmente strutturati, crea il codice ETL per trasformare, snellire e arricchire i dati e li carica periodicamente nel data warehouse.

Preparazione al caricamento di dati per l'analisi

Il catalogo dati di AWS Glue può essere impiegato per rilevare e rendere ricercabili diversi set di dati in AWS in modo rapido senza spostarli. Una volta catalogati, i dati sono immediatamente ricercabili e interrogabili con Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

Visualizzazione unificata dei dati

I data lake sono un metodo molto diffuso per memorizzare e analizzare dati strutturati e non strutturati. Se usi un data lake Amazon S3, AWS Glue è in grado di rendere tutte le informazioni contenute disponibili all'analisi senza alcun trasferimento. I crawler di Glue scansioneranno il data lake e manterranno il catalogo dati di Glue sincronizzato. Potrai così utilizzare Amazon Athena e Amazon Redshift Spectrum per interrogare direttamente il data lake. Potrai inoltre utilizzare il catalogo dati di Glue come Apache Hive Metastore esterno per le applicazioni per Big Data in Amazon EMR.

Visualizzazione unificata dei dati

AWS Glue può eseguire i processi ETL in seguito ad eventi, ad esempio l'acquisizione di un nuovo set di dati. Ad esempio, è possibile utilizzare una funzione AWS Lambda per attivare un processo ETL appena diventano disponibili nuovi dati in Amazon S3. È anche possibile registrare il nuovo set di dati nel catalogo dati di AWS Glue come parte dei processi ETL.

Avvio automatico di processi ETL in presenza di nuovi dati

Iniziare a usare AWS Glue è semplice. È sufficiente accedere alla Console di gestione AWS e cercare la voce "Glue" nella categoria "Analytics".

Sei pronto ad avviare un processo ETL?

Inizia a usare AWS Glue