Rilevamento

Rileva e cerca in tutti i set di dati AWS

Il catalogo dati di AWS Glue è uno store di metadati persistente per tutti gli asset di dati, indipendentemente dal percorso in cui si trovano. Il catalogo dati contiene definizioni di tabelle e di processi e altre informazioni di controllo che agevolano la gestione dell'ambiente di AWS Glue. Elabora le statistiche e registra le partizioni automaticamente per interrogare i dati in modo efficiente e a costi contenuti. Inoltre, permette di mantenere uno storico completo delle versioni dello schema per capire più facilmente in che modo i dati cambiano nel corso del tempo.

Individuazione automatica degli schemi

I crawler di AWS Glue si collegano ai datastore di origine o di destinazione e ne mettono a confronto i contenuti con un elenco di classificatori ordinato per priorità per determinare lo schema dei dati, quindi importa i metadati in un catalogo dati di AWS Glue. I metadati vengono memorizzati in tabelle all'interno del catalogo dati e vengono utilizzati per la scrittura dei processi ETL. I crawler possono essere eseguiti in base a pianificazioni, on demand, oppure attivati da eventi, per assicurare che i metadati siano sempre aggiornati.

Gestisci e applica schemi per i flussi di dati

Il registro degli schemi di AWS Glue, una funzionalità serverless di AWS Glue, consente di convalidare e controllare l'evoluzione dei dati di streaming tramite schemi di Apache Avro registrati senza costi aggiuntivi. Tramite serializzatori e deserializzatori con licenza Apache, il registro degli schemi si integra con le applicazioni Java sviluppate per Apache Kafka, Amazon Managed Streaming per Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics per Apache Flink e AWS Lambda. Quando le applicazioni di streaming di dati sono integrate con il registro degli schemi, è possibile migliorare la qualità dei dati e la protezione da modifiche impreviste grazie a controlli di compatibilità che gestiscono l'evoluzione degli schemi. Inoltre, potrai creare o aggiornare le tabelle e le partizioni di AWS Glue utilizzando gli schemi memorizzati all'interno del registro.

Scalabilità automatica basata sul carico di lavoro

La scalabilità automatica in AWS Glue, una funzionalità serverless in AWS Glue, dimensiona dinamicamente le risorse in base al carico di lavoro. Con la scalabilità automatica, al tuo lavoro vengono assegnati worker solo quando necessario. Man mano che il lavoro avanza e passa attraverso trasformazioni avanzate, AWS Glue aggiunge e rimuove risorse a seconda di quanto può suddividere il carico di lavoro. Non sarà più necessario preoccuparsi dell'over-provisioning delle risorse, impiegare tempo ad ottimizzare il numero dei worker oppure pagare per risorse inattive.

Preparazione

Deduplica e pulisci i dati con il machine learning integrato

AWS Glue ti aiuta a pulire e preparare i dati per le analisi senza richiedere competenze avanzate di machine learning. La sua funzionalità FindMatches deduplica e individua i record che sono copie imperfette l'uno dell'altro. Ad esempio, utilizza FindMatches per trovare record duplicati nel database di ristoranti, come quando un record elenca "Joe's Pizza" in "121 Main St." e un altro mostra una "Joseph's Pizzeria" in "121 Main". FindMatches ti chiederà semplicemente di etichettare i set di record come "corrispondenti" o "non corrispondenti". Il sistema apprenderà quindi i tuoi criteri per definire la "corrispondenza" di una coppia di record e creerà un processo ETL utilizzabile per trovare record duplicati all'interno di un database o per abbinare i record corrispondenti in due database diversi.

Modifica, esegui il debug e testa il codice ETL con endpoint di sviluppo

Se scegli di sviluppare il codice ETL in modo interattivo, AWS Glue fornisce endpoint di sviluppo con cui apportare modifiche, eseguire il debug e testare il codice generato. È possibile utilizzare un ambiente IDE personalizzato o un notebook. È possibile compilare processi di lettura, di scrittura o di trasformazione e importarli nei processi ETL di AWS Glue sotto forma di librerie personalizzate. È anche possibile usare il codice di altri sviluppatori o condividere il codice con loro nel nostro repository GitHub.

Normalizza i dati senza codice utilizzando un'interfaccia visiva

AWS Glue DataBrew fornisce un'interfaccia visiva interattiva a utenti come analisti di dati e data scientist per la preparazione e la normalizzazione dei dati senza bisogno di scrivere il codice. Puoi facilmente visualizzare, pulire e normalizzare i dati direttamente da data lake, data warehouse e database, compresi Amazon S3, Amazon Redshift, Amazon Aurora e Amazon RDS. Puoi scegliere tra oltre 250 trasformazioni integrate per combinare, focalizzare e trasporre i dati e automatizzare le attività di preparazione dei dati applicando le trasformazioni memorizzate direttamente ai nuovi dati in entrata.

Definisci, rileva e correggi i dati sensibili

AWS Glue Sensitive Data Detection ti consente di definire, identificare ed elaborare i dati sensibili nella tua data pipeline e nel tuo data lake. Una volta identificati, puoi correggere i dati sensibili redigendo, sostituendo o segnalando le informazioni personali di identificazione (PII) e altri tipi di dati ritenuti sensibili. AWS Glue Sensitive Data Detection semplifica l'identificazione e il mascheramento dei dati sensibili, comprese le PII come nome, SSN, indirizzo, e-mail e patente di guida.

Integrazione

Semplifica lo sviluppo del processo di integrazione dei dati

AWS Glue Interactive Sessions, una funzionalità serverless per lo sviluppo dei processi, semplifica lo sviluppo dei lavori di integrazione dei dati. AWS Glue Interactive Sessions consente ai data engineer di esplorare e preparare i dati in modo interattivo. Gli ingegneri possono esplorare, sperimentare ed elaborare i dati in modo interattivo utilizzando l'IDE o il notebook di loro scelta.

Job Notebooks integrato

AWS Glue Studio Job Notebooks fornisce notebook serverless con una configurazione minima in AWS Glue Studio, in modo che gli sviluppatori possano iniziare rapidamente. Glue Studio Job Notebooks fornisce un'interfaccia integrata per AWS Glue Interactive Sessions che consente agli utenti di salvare e pianificare il codice del proprio notebook come processi AWS Glue.

Crea pipeline ETL complesse con una pianificazione semplice dei processi

I processi di AWS Glue possono essere programmati in base a pianificazioni, avviati on demand, oppure attivati da eventi. È possibile avviare diversi processi in parallelo oppure specificare le dipendenze tra diversi processi per dare vita a pipeline ETL complesse. AWS Glue gestirà tutte le dipendenze tra un processo e l'altro, filtrerà i dati non utilizzabili ed eseguirà nuovamente i processi terminati con errori. Tutti i log e le notifiche vengono inoltrati in Amazon CloudWatch per eseguire il monitoraggio e generare gli allarmi tramite un servizio centralizzato.

Applicazione e implementazione delle best practice DevOps con l’integrazione di Git

AWS Glue è integrato con Git, il sistema di controllo versione open source ampiamente utilizzato. Puoi utilizzare GitHub ed AWS CodeCommit per mantenere uno storico delle modifiche apportate ai tuoi processi AWS Glue e applicare le procedure DevOps esistenti per implementarli. L'integrazione con Git in AWS Glue funziona per tutti i tipi di processi AWS Glue, sia visivi che basati su codice. Include l'integrazione integrata con GitHub e AWS CodeCommit e semplifica anche l'utilizzo di strumenti di automazione come Jenkins e AWS CodeDeploy per implementare i processi di AWS Glue.

Riduci i costi per i carichi di lavoro non urgenti con l'esecuzione flessibile dei processi

AWS Glue Flex è una nuova classe di processi di esecuzione flessibile che ti consente di ridurre i costi dei carichi di lavoro di integrazione dei dati non urgenti (per esempio, processi di pre-produzione, test, caricamento di dati, ecc.) fino al 35%. Glue ha due classi di esecuzione dei processi: standard e flessibile. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al fattore tempo, che richiedono un avvio rapido del processo e risorse dedicate. L’opzione flessibile di Glue è adatta per processi che non richiedono tempo, i cui tempi di inizio e di completamento possono variare.

Trasformazione

Trasforma visivamente i dati con un'interfaccia a trascinamento

AWS Glue Studio ti consente di compilare processi ETL altamente scalabili per l'elaborazione distribuita senza richiedere competenze avanzate di Apache Spark. Definisci il processo ETL nell'editor dei processi a trascinamento e AWS Glue genera automaticamente il codice che serve a estrarre, trasformare e caricare i dati. Il codice viene generato in Scala o Python e scritto per Apache Spark.

Pulisci e trasforma dati in streaming in corso

I processi ETL in streaming serverless in AWS Glue acquisiscono continuamente i dati dalle origini in streaming, comprese Amazon Kinesis e Amazon MSK, li puliscono e li trasformano immediatamente, rendendoli disponibili per l'analisi in pochi secondi nel datastore di destinazione. Sfrutta questa caratteristica per elaborare i dati di eventi quali flussi di eventi IoT, clickstream e log di rete. I processi ETL di streaming di AWS Glue possono arricchire e aggregare i dati, unire batch e fonti di streaming ed eseguire una vasta gamma di analisi complesse e di operazioni di machine learning.

Prezzi di AWS Glue
Visita la pagina dei prezzi

Ulteriori informazioni sui prezzi di AWS Glue.

Ulteriori informazioni 
Registrati per creare un account AWS
Registrati per creare un account gratuito

Ottieni l'accesso immediato al piano gratuito di AWS. 

Registrati 
Inizia a lavorare nella console
Inizia a lavorare nella console

Inizia subito a creare con AWS Glue nella Console di gestione AWS.

Accedi