AWS Glue è un servizio di estrazione, trasferimento e caricamento (ETL) che permette di catalogare i dati, pulirli, migliorarne la qualità e trasferirli in modo sicuro tra datastore. Con AWS Glue, è possibile ridurre in modo significativo costi, complessità e tempo necessario per la creazione di processi ETL. AWS Glue è un servizio serverless, perciò non è necessario configurare o gestire alcuna infrastruttura. I prezzi sono calcolati in base alle risorse impiegate per l'esecuzione dei processi.

Sei pronto ad avviare un processo ETL?

Inizia a usare AWS Glue
100x100_benefit_ingergration

Il catalogo dati di AWS Glue è uno store di metadati persistente per tutti gli asset di dati, indipendentemente dal percorso in cui si trovano. Il catalogo dati contiene definizioni di tabelle e di processi e altre informazioni di controllo che agevolano la gestione dell'ambiente di AWS Glue. Elabora le statistiche e registra le partizioni automaticamente per interrogare i dati in modo efficiente e a costi contenuti. Inoltre, permette di mantenere uno storico completo delle versioni dello schema per capire più facilmente in che modo i dati cambiano nel corso del tempo.

100x100_benefit_automated

I crawler di AWS Glue si collegano ai datastore di origine o di destinazione e ne mettono a confronto i contenuti con un elenco di classificatori ordinato per priorità per determinare lo schema dei dati, quindi importa i metadati in un catalogo dati di AWS Glue. I metadati vengono memorizzati in tabelle all'interno del catalogo dati e vengono utilizzati per la scrittura dei processi ETL. I crawler possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi, per assicurare che i metadati siano sempre aggiornati.

100x100_benefit_code

AWS Glue genera automatica il codice che serve per estrarre, trasformare e caricare i dati. È sufficiente indicare a Glue l'origine e la destinazione dei dati e il servizio creerà gli script ETL con cui trasforma, ottimizza e migliora la qualità dei dati. Il codice viene generato in Python e scritto per l'ambiente Apache Spark 2.1.

100x100_benefit_tools

Se scegli di sviluppare codice ETL in modo interattivo, Glue fornisce endpoint di sviluppo con cui apportare modifiche, eseguire il debug e testare il codice generato. Puoi utilizzare un ambiente IDE personalizzato o un notebook. Puoi compilare processi di lettura, di scrittura o di trasformazione e importarli nei processi ETL come librerie personalizzate. Puoi anche usare il codice di altri sviluppatori o condividere codice con loro nel nostro repository GitHub.

100x100_benefit_monitoring-logging

I processi di AWS Glue possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi. È possibile avviare diversi processi in parallelo oppure specificare le dipendenze tra diversi processi per dare vita a pipeline ETL complesse. Glue gestirà tutte le dipendenze tra un processo e l'altro, filtrerà i dati non utilizzabili ed eseguirà nuovamente i processi terminati con errori. Tutti i log e le notifiche vengono inoltrati in Amazon CloudWatch per eseguire il monitoraggio e generare gli allarmi tramite un servizio centralizzato.

Iniziare a usare AWS Glue è semplice. È sufficiente accedere alla Console di gestione AWS e cercare la voce "Glue" nella categoria "Analytics".

Sei pronto ad avviare un processo ETL?

Inizia a usare AWS Glue