Rilevamento dei dati

Rileva e ricerca tutti i set di dati AWS

Il catalogo dati di AWS Glue è uno store di metadati persistente per tutti gli asset di dati, indipendentemente dal percorso in cui si trovano. Il catalogo dati contiene definizioni di tabelle e di processi e altre informazioni di controllo che agevolano la gestione dell'ambiente di AWS Glue. Elabora le statistiche e registra le partizioni automaticamente per interrogare i dati in modo efficiente e a costi contenuti. Inoltre, permette di mantenere uno storico completo delle versioni dello schema per capire più facilmente in che modo i dati cambiano nel corso del tempo.

Individuazione automatica degli schemi

I crawler di AWS Glue si collegano ai datastore di origine o di destinazione e ne mettono a confronto i contenuti con un elenco di classificatori ordinato per priorità per determinare lo schema dei dati, quindi importa i metadati in un catalogo dati di AWS Glue. I metadati vengono memorizzati in tabelle all'interno del catalogo dati e vengono utilizzati per la scrittura dei processi ETL. I crawler possono essere eseguiti in base a pianificazioni, on demand, oppure attivati da eventi, per assicurare che i metadati siano sempre aggiornati.

Gestisci e applica schemi per i flussi di dati

Il registro degli schemi di AWS Glue, una funzionalità serverless di AWS Glue, consente di convalidare e controllare l'evoluzione dei dati di streaming tramite schemi di Apache Avro registrati senza costi aggiuntivi. Tramite serializzatori e deserializzatori con licenza Apache, il registro degli schemi si integra con le applicazioni Java sviluppate per Apache Kafka, Amazon Managed Streaming per Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics per Apache Flink e AWS Lambda. Quando le applicazioni di streaming di dati sono integrate con il registro degli schemi, è possibile migliorare la qualità dei dati e la protezione da modifiche impreviste grazie a controlli di compatibilità che gestiscono l'evoluzione degli schemi. Inoltre, potrai creare o aggiornare le tabelle e le partizioni di AWS Glue utilizzando gli schemi memorizzati all'interno del registro.

Trasformazione dei dati

Trasforma visivamente i dati con un'interfaccia a trascinamento

AWS Glue Studio ti consente di compilare processi ETL altamente scalabili per l'elaborazione distribuita senza richiedere competenze avanzate di Apache Spark. Definisci il processo ETL nell'editor dei processi a trascinamento e AWS Glue genera automaticamente il codice che serve a estrarre, trasformare e caricare i dati. Il codice viene generato in Scala o Python e scritto per Apache Spark.

Crea pipeline ETL complesse con una pianificazione semplice dei processi

I processi di AWS Glue possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi. È possibile avviare diversi processi in parallelo oppure specificare le dipendenze tra diversi processi per dare vita a pipeline ETL complesse. AWS Glue gestirà tutte le dipendenze tra un processo e l'altro, filtrerà i dati non utilizzabili ed eseguirà nuovamente i processi terminati con errori. Tutti i log e le notifiche vengono inoltrati in Amazon CloudWatch per eseguire il monitoraggio e generare gli allarmi tramite un servizio centralizzato.

Pulisci e trasforma dati in streaming in corso

I processi ETL in streaming serverless in AWS Glue acquisiscono continuamente i dati dalle origini in streaming, comprese Amazon Kinesis e Amazon MSK, li puliscono e li trasformano immediatamente, rendendoli disponibili per l'analisi in pochi secondi nel datastore di destinazione. Sfrutta questa caratteristica per elaborare i dati di eventi quali flussi di eventi IoT, clickstream e log di rete. Le attività ETL di streaming di AWS Glue possono arricchire e aggregare i dati, unire batch e fonti di streaming ed eseguire una vasta gamma di analisi complesse e di operazioni di machine learning.

Replica dei dati

Combina e replica i dati su più datastore con SQL

AWS Glue Elastic Views ti consente di creare viste dei dati archiviati in più tipi di datastore AWS e materializzare le viste in un datastore di destinazione a scelta. Puoi utilizzare AWS Glue Elastic Views per creare viste materializzate scrivendo query in PartiQL. PartiQL è un linguaggio di query open source compatibile con SQL che puoi utilizzare per interrogare e modificare i dati, indipendentemente dalla loro struttura: tabulare o flessibile come un documento. Puoi scrivere query PartiQL in modo interattivo tramite l'editor nella Console di gestione AWS o emettere query dall'API o dall'interfaccia a riga di comando.

AWS Glue Elastic Views supporta Amazon DynamoDB come origine (con supporto per Amazon Aurora e Amazon RDS a seguire), nonché Amazon Redshift, Amazon Elasticsearch Service e Amazon S3 come destinazioni (con supporto per Amazon Aurora, Amazon RDS e Amazon DynamoDB a seguire). Puoi accelerare i tempi di sviluppo condividendo le viste materializzate con altri utenti affinché possano utilizzarle nelle rispettive applicazioni. AWS Glue Elastic Views monitora continuamente le modifiche ai dati nei datastore di origine e fornisce automaticamente aggiornamenti ai datastore di destinazione. Ulteriori informazioni su AWS Glue Elastic Views.

Preparazione dei dati

Deduplica e pulisci i dati con machine learning integrato

AWS Glue ti aiuta a pulire e preparare i dati per le analisi senza richiedere competenze avanzate di machine learning. La sua funzionalità FindMatches deduplica e individua i record che sono copie imperfette l'uno dell'altro. Ad esempio, utilizza FindMatches per trovare record duplicati nel database di ristoranti, come quando un record elenca "Joe's Pizza" in "121 Main St." e un altro mostra una "Joseph's Pizzeria" in "121 Main". FindMatches ti chiederà semplicemente di etichettare i set di record come "corrispondenti" o "non corrispondenti". Il sistema apprenderà quindi i tuoi criteri per definire la "corrispondenza" di una coppia di record e creerà un processo ETL utilizzabile per trovare record duplicati all'interno di un database o per abbinare i record corrispondenti in due database diversi.

Modifica, esegui il debug e testa il codice ETL con endpoint di sviluppo

Se scegli di sviluppare il codice ETL in modo interattivo, AWS Glue fornisce endpoint di sviluppo con cui apportare modifiche, eseguire il debug e testare il codice generato. È possibile utilizzare un ambiente IDE personalizzato o un notebook. È possibile compilare processi di lettura, di scrittura o di trasformazione e importarli nei processi ETL di AWS Glue sotto forma di librerie personalizzate. È anche possibile usare il codice di altri sviluppatori o condividere il codice con loro nel nostro repository GitHub.

Normalizza i dati senza codice utilizzando un'interfaccia visiva

AWS Glue DataBrew fornisce un'interfaccia visiva interattiva a utenti come analisti di dati e data scientist per la preparazione e la normalizzazione dei dati senza bisogno di scrivere il codice. Puoi facilmente visualizzare, pulire e normalizzare i dati direttamente da data lake, data warehouse e database, compresi Amazon S3, Amazon Redshift, Amazon Aurora e Amazon RDS. Puoi scegliere tra oltre 250 trasformazioni integrate per combinare, focalizzare e trasporre i dati e automatizzare le attività di preparazione dei dati applicando le trasformazioni memorizzate direttamente ai nuovi dati in entrata.

Prezzi di AWS Glue
Visita la pagina dei prezzi

Ulteriori informazioni sui prezzi di AWS Glue.

Ulteriori informazioni 
Registrati per creare un account AWS
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia subito nella console
Inizia subito nella console

Inizia subito a creare con AWS Glue nella Console di gestione AWS.

Accedi