Catalogo dati integrato

Il catalogo dati di AWS Glue è uno store di metadati persistente per tutti gli asset di dati, indipendentemente dal percorso in cui si trovano. Il catalogo dati contiene definizioni di tabelle e di processi e altre informazioni di controllo che agevolano la gestione dell'ambiente di AWS Glue. Elabora le statistiche e registra le partizioni automaticamente per interrogare i dati in modo efficiente e a costi contenuti. Inoltre, permette di mantenere uno storico completo delle versioni dello schema per capire più facilmente in che modo i dati cambiano nel corso del tempo.

Individuazione automatica degli schemi

I crawler di AWS Glue si collegano ai datastore di origine o di destinazione e ne mettono a confronto i contenuti con un elenco di classificatori ordinato per priorità per determinare lo schema dei dati, quindi importa i metadati in un catalogo dati di AWS Glue. I metadati vengono memorizzati in tabelle all'interno del catalogo dati e vengono utilizzati per la scrittura dei processi ETL. I crawler possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi, per assicurare che i metadati siano sempre aggiornati.

ETL e generazione di codice tramite interfaccia visiva

AWS Glue Studio ti consente di compilare processi ETL altamente scalabili per l'elaborazione distribuita senza richiedere competenze avanzate di Apache Spark. Definisci il processo ETL nell'editor dei processi a trascinamento e AWS Glue genera automaticamente il codice che serve a estrarre, trasformare e caricare i dati. Il codice viene generato in Scala o Python e scritto per Apache Spark.

Pulizia e deduplicazione dei dati

AWS Glue ti aiuta a pulire e preparare i dati per le analisi senza richiedere competenze avanzate di machine learning. La sua funzionalità FindMatches deduplica e individua i record che sono copie imperfette l'uno dell'altro. Ad esempio, utilizza FindMatches per trovare record duplicati nel database di ristoranti, come quando un record elenca "Joe's Pizza" in "121 Main St." e un altro mostra una "Joseph's Pizzeria" in "121 Main". FindMatches ti chiederà semplicemente di etichettare i set di record come "corrispondenti" o "non corrispondenti". Il sistema apprenderà quindi i tuoi criteri per definire la "corrispondenza" di una coppia di record e creerà un processo ETL utilizzabile per trovare record duplicati all'interno di un database o per abbinare i record corrispondenti in due database diversi.

Endpoint di sviluppo

Se si sceglie di sviluppare codice ETL in modo interattivo, AWS Glue fornisce endpoint di sviluppo con cui apportare modifiche, eseguire il debug e testare il codice generato. È possibile utilizzare un ambiente IDE personalizzato o un notebook. È possibile compilare processi di lettura, di scrittura o di trasformazione e importarli nei processi ETL di AWS Glue sotto forma di librerie personalizzate. È anche possibile usare il codice di altri sviluppatori o condividere il codice con loro nel nostro repository GitHub.

Sistema di pianificazione dei processi flessibile

I processi di AWS Glue possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi. È possibile avviare diversi processi in parallelo oppure specificare le dipendenze tra diversi processi per dare vita a pipeline ETL complesse. AWS Glue gestirà tutte le dipendenze tra un processo e l'altro, filtrerà i dati non utilizzabili ed eseguirà nuovamente i processi terminati con errori. Tutti i log e le notifiche vengono inoltrati in Amazon CloudWatch per eseguire il monitoraggio e generare gli allarmi tramite un servizio centralizzato.

ETL in streaming serverless

I processi ETL in streaming serverless in AWS Glue acquisiscono continuamente i dati dalle origini in streaming, comprese Amazon Kinesis e Amazon MSK, li puliscono e li trasformano immediatamente, rendendoli disponibili per l'analisi in pochi secondi nel datastore di destinazione. Sfrutta questa caratteristica per elaborare i dati di eventi quali flussi di eventi IoT, clickstream e log di rete. Le attività ETL di streaming di AWS Glue possono arricchire e aggregare i dati, unire batch e fonti di streaming ed eseguire una vasta gamma di analisi complesse e di operazioni di machine learning.

Prezzi di AWS Glue
Visita la pagina dei prezzi

Ulteriori informazioni sui prezzi di AWS Glue.

Ulteriori informazioni 
Registrati per creare un account AWS
Registrati per creare un account gratuito

Ottieni l'accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia subito nella console
Inizia subito nella console

Inizia subito a creare con AWS Glue nella Console di gestione AWS.

Accedi