Catalogo dati integrato

Il catalogo dati di AWS Glue è uno store di metadati persistente per tutti gli asset di dati, indipendentemente dal percorso in cui si trovano. Il catalogo dati contiene definizioni di tabelle e di processi e altre informazioni di controllo che agevolano la gestione dell'ambiente di AWS Glue. Elabora le statistiche e registra le partizioni automaticamente per interrogare i dati in modo efficiente e a costi contenuti. Inoltre, permette di mantenere uno storico completo delle versioni dello schema per capire più facilmente in che modo i dati cambiano nel corso del tempo.

Individuazione automatica degli schemi

I crawler di AWS Glue si collegano ai datastore di origine o di destinazione e ne mettono a confronto i contenuti con un elenco di classificatori ordinato per priorità per determinare lo schema dei dati, quindi importa i metadati in un catalogo dati di AWS Glue. I metadati vengono memorizzati in tabelle all'interno del catalogo dati e vengono utilizzati per la scrittura dei processi ETL. I crawler possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi, per assicurare che i metadati siano sempre aggiornati.

Generazione di codice

AWS Glue genera automaticamente il codice che serve ad estrarre, trasformare e caricare i dati. È sufficiente indicare ad AWS Glue l'origine e la destinazione dei dati e il servizio creerà gli script ETL con cui trasforma, ottimizza e migliora la qualità dei dati. Il codice viene generato in Scala o Python e scritto per Apache Spark.

Pulisci e deduplica i dati

AWS Glue aiuta a pulire il formato e preparare i tuoi dati per l'analisi tramite un processo di trasformazione di machine learning definita FindMatches per la deduplicazione e la ricerca di record corrispondenti. Ad esempio, utilizza FindMatches di AWS Lake Formation per trovare record duplicati nel database di ristoranti, ad esempio quando un record elenca "Joe's Pizza" in "121 Main St." e un altro mostra una "Joseph's Pizzeria" in "121 Main". Per procedere all’utilizzo del servizio, non è necessario sapere nulla sul machine learning. FindMatches ti chiederà semplicemente di etichettare i set di record come "corrispondenti" o "non corrispondenti". Il sistema apprenderà quindi i tuoi criteri per definire una “corrispondenza” di una coppia di record e creerà un processo di trasformazione ML utilizzabile per trovare record duplicati all'interno di un database o abbinarne altri in due database.

Endpoint di sviluppo

Se si sceglie di sviluppare codice ETL in modo interattivo, AWS Glue fornisce endpoint di sviluppo con cui apportare modifiche, eseguire il debug e testare il codice generato. È possibile utilizzare un ambiente IDE personalizzato o un notebook. È possibile compilare processi di lettura, di scrittura o di trasformazione e importarli nei processi ETL di AWS Glue sotto forma di librerie personalizzate. È anche possibile usare il codice di altri sviluppatori o condividere il codice con loro nel nostro repository GitHub.

Sistema di pianificazione dei processi flessibile

I processi di AWS Glue possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi. È possibile avviare diversi processi in parallelo oppure specificare le dipendenze tra diversi processi per dare vita a pipeline ETL complesse. AWS Glue gestirà tutte le dipendenze tra un processo e l'altro, filtrerà i dati non utilizzabili ed eseguirà nuovamente i processi terminati con errori. Tutti i log e le notifiche vengono inoltrati in Amazon CloudWatch per eseguire il monitoraggio e generare gli allarmi tramite un servizio centralizzato.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Visita la pagina dei prezzi

Ulteriori informazioni sui prezzi di AWS Glue.

Ulteriori informazioni 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Inizia subito nella console

Inizia subito a utilizzare Amazon Glue nella Console di gestione AWS.

Accedi