AWS Glue è un servizio di integrazione dati serverless che semplifica l'individuazione, la preparazione e la combinazione dei dati per l'analisi, il machine learning e lo sviluppo di applicazioni. AWS Glue fornisce tutte le funzionalità necessarie per l'integrazione dei dati, così da poter iniziare ad analizzare i dati e utilizzarli in pochi minuti anziché in mesi.
L'integrazione dei dati è il processo di preparazione e combinazione dei dati per l'analisi, il machine learning e lo sviluppo di applicazioni. Coinvolge più attività, come la scoperta e l'estrazione di dati da varie origini, l’arricchimento, la pulizia, la normalizzazione e la combinazione di dati e il caricamento e l’organizzazione dei dati in database, data warehouse e data lake. Queste attività sono spesso gestite da diversi tipi di utenti che utilizzano prodotti differenti.
AWS Glue fornisce interfacce visive e basate su codice per facilitare la preparazione dei dati. Gli utenti possono trovare e accedere facilmente ai dati utilizzando il catalogo dati di AWS Glue. Per creare, eseguire e monitorare flussi di lavoro ETL in pochi clic, gli ingegneri dei dati e gli sviluppatori ETL possono utilizzare AWS Glue Studio. Gli analisti di dati e i data scientist possono utilizzare AWS Glue DataBrew per pulire e normalizzare visivamente i dati senza scrivere codice. Con AWS Glue Elastic Views, gli sviluppatori di applicazioni possono utilizzare il familiare linguaggio di query strutturata (SQL) per combinare e replicare i dati su diversi datastore.
Vantaggi
Integrazione di dati più rapida
Gruppi diversi all'interno dell'organizzazione possono utilizzare AWS Glue per lavorare insieme sulle attività di integrazione dei dati, quali estrazione, pulizia, normalizzazione, caricamento ed esecuzione di flussi di lavoro ETL scalabili. In questo modo, il tempo necessario per iniziare ad analizzare i dati viene da mesi a pochi minuti.
Automatizzazione dell'integrazione dei dati su larga scala
AWS Glue automatizza molte delle operazioni richieste per la preparazione dei dati. AWS Glue effettua ricerche per indicizzazione nelle origini dati, identifica i formati dei dati e suggerisce schemi per memorizzarli. Genera inoltre automaticamente il codice per eseguire le trasformazioni e i processi di caricamento dei dati. Puoi utilizzare AWS Glue per eseguire e gestire facilmente migliaia di processi ETL o per combinare e replicare i dati su più datastore mediante SQL.
Nessun server da gestire
AWS Glue viene eseguito in un ambiente serverless. Non è presente alcuna infrastruttura da gestire, e AWS Glue effettua il provisioning, la configurazione e il dimensionamento delle risorse necessarie per eseguire le attività di integrazione dei dati. I prezzi sono calcolati in base alle risorse impiegate per l'esecuzione dei processi.
Casi d'uso
Genera pipeline ETL (extract, transform, and load) basate su eventi
AWS Glue può eseguire i processi ETL non appena arrivano nuovi dati. Ad esempio, è possibile utilizzare una funzione AWS Lambda per attivare un processo ETL appena diventano disponibili nuovi dati in Amazon S3. È anche possibile registrare il nuovo set di dati nel catalogo dati di AWS Glue come parte dei processi ETL.

Crea un catalogo unificato per trovare i dati in più datastore
Il catalogo dati di AWS Glue può essere impiegato per rilevare e rendere ricercabili diversi set di dati in AWS in modo rapido senza spostarli. Una volta catalogati, i dati sono immediatamente ricercabili e interrogabili con Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

Crea, esegui e monitora le operazioni ETL senza codice
AWS Glue Studio facilita la creazione, l'esecuzione e il monitoraggio visivi delle operazioni ETL di AWS Glue. Puoi generare operazioni ETL che spostano e trasformano i dati utilizzando un editor a trascinamento e rilascio e AWS Glue genererà automaticamente il codice. È quindi possibile utilizzare il pannello di controllo dell'esecuzione dei processi di AWS Glue Studio per monitorare l'esecuzione ETL e verificare che vengano svolti come previsto. Scopri di più su AWS Glue Studio qui.

Esplora i dati con la preparazione visiva self-service dei dati
AWS Glue DataBrew consente di esplorare e sperimentare con i dati direttamente da data lake, data warehouse e database, inclusi Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora e Amazon RDS. Puoi scegliere tra oltre 250 trasformazioni integrate in AWS Glue DataBrew per automatizzare le attività di preparazione dei dati, come filtro delle anomalie, standardizzazione dei formati e correzione dei valori non validi. Dopo la preparazione, i dati possono essere utilizzati immediatamente per l'analisi e il machine learning. Scopri di più su AWS Glue DataBrew qui.

Genera viste materializzate per combinare e replicare i dati (in anteprima)
AWS Glue Elastic Views consente di utilizzare il comune SQL per creare viste materializzate. Utilizza queste viste per accedere e combinare i dati da più datastore di origine e tenere questi dati combinati aggiornati e accessibili da un datastore di destinazione. L'anteprima di AWS Glue Elastic Views al momento supporta Amazon DynamoDB come origine, con supporto per Amazon Aurora e Amazon RDS a seguire. Le destinazioni correntemente supportate sono Amazon Redshift, Simple Storage Service (Amazon S3) e Amazon OpenSearch Service, con supporto per Amazon Aurora, Amazon RDS e Amazon DynamoDB a seguire. Ulteriori informazioni su AWS Glue Elastic Views qui.

Novità

Ulteriori informazioni sulle caratteristiche chiave di AWS Glue.

Ottieni l'accesso immediato al piano gratuito di AWS.