Catalogo dati integrato

Il catalogo dati di AWS Glue è uno store di metadati persistente per tutti gli asset di dati, indipendentemente dal percorso in cui si trovano. Il catalogo dati contiene definizioni di tabelle e di processi e altre informazioni di controllo che agevolano la gestione dell'ambiente di AWS Glue. Elabora le statistiche e registra le partizioni automaticamente per interrogare i dati in modo efficiente e a costi contenuti. Inoltre, permette di mantenere uno storico completo delle versioni dello schema per capire più facilmente in che modo i dati cambiano nel corso del tempo.

Individuazione automatica degli schemi

I crawler di AWS Glue si collegano ai datastore di origine o di destinazione e ne mettono a confronto i contenuti con un elenco di classificatori ordinato per priorità per determinare lo schema dei dati, quindi importa i metadati in un catalogo dati di AWS Glue. I metadati vengono memorizzati in tabelle all'interno del catalogo dati e vengono utilizzati per la scrittura dei processi ETL. I crawler possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi, per assicurare che i metadati siano sempre aggiornati.

Generazione di codice

AWS Glue genera automatica il codice che serve per estrarre, trasformare e caricare i dati. È sufficiente indicare a Glue l'origine e la destinazione dei dati e il servizio creerà gli script ETL con cui trasforma, ottimizza e migliora la qualità dei dati. Il codice viene generato in Scala o Python e scritto per Apache Spark.

Endpoint di sviluppo

Se si desidera sviluppare codice ETL in modo interattivo, Glue fornisce endpoint di sviluppo con cui apportare modifiche, eseguire il debug e testare il codice generato. Possono essere utilizzati notebook o ambienti IDE personalizzati. È possibile compilare processi di lettura, di scrittura o di trasformazione e importarli nei processi ETL sotto forma di librerie personalizzate. È anche possibile usare il codice di altri sviluppatori o condividere codice con loro nel nostro repository GitHub.

Sistema di pianificazione dei processi flessibile

I processi di AWS Glue possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi. È possibile avviare diversi processi in parallelo oppure specificare le dipendenze tra diversi processi per dare vita a pipeline ETL complesse. Glue gestirà tutte le dipendenze tra un processo e l'altro, filtrerà i dati non utilizzabili ed eseguirà nuovamente i processi terminati con errori. Tutti i log e le notifiche vengono inoltrati in Amazon CloudWatch per eseguire il monitoraggio e generare gli allarmi tramite un servizio centralizzato.

Scopri di più sui prezzi di AWS Glue.

Visita la pagina dei prezzi
Tutto pronto per cominciare?
Inizia a usare AWS Glue
Hai altre domande?
Contattaci