Domande generali

D: Che cos'è AWS Glue?

AWS Glue è un servizio di estrazione, trasferimento e caricamento (ETL) completamente gestito e con tariffe basate sul consumo effettivo che permette di automatizzare le lunghe procedure di preparazione dei dati per l'analisi. AWS Glue individua e profila automaticamente i dati tramite l'apposito catalogo, suggerisce e genera codice ETL per trasformare i dati di origine in schemi di destinazione ed esegue processi ETL in un ambiente Apache Spark flessibile e a scalabilità orizzontale per caricare le informazioni nel percorso di destinazione. Inoltre, tale servizio consente di configurare, orchestrare e monitorare flussi di dati complessi.

D: Come si inizia a usare AWS Glue?

Per iniziare a usare AWS Glue, esegui l'accesso nella Console di gestione AWS e cerca la voce "Glue" nella categoria "Analisi". È possibile anche seguire uno dei tutorial guidati che presentano casi d'uso di esempio di AWS Glue. È inoltre disponibile un codice ETL di esempio nel repository GitHub in AWS Labs.

D: Quali sono i componenti principali di AWS Glue?

AWS Glue è composto da un catalogo dati, che è il repository centrale di metadati, da un motore ETL in grado di generare automaticamente codice Scala o Python e da un sistema di pianificazione che gestisce la risoluzione di dipendenze, il monitoraggio dei processi e l'esecuzione di nuovi tentativi. Questi tre componenti permettono di automatizzare buona parte delle onerose attività generiche legate a individuazione, suddivisione in categorie, ottimizzazione, miglioramento della qualità e trasferimento dei dati, così da consentirti di concentrare maggiormente l'attenzione sull'analisi dei dati.

D: In quali casi è indicato utilizzare AWS Glue?

AWS Glue è indicato per scoprire le proprietà dei dati, trasformarli e prepararli per l'analisi. Glue è in grado di rilevare i dati sia strutturati sia parzialmente strutturati memorizzati nei data lake in Amazon S3, nei data warehouse in Amazon Redshift e in diversi tipi di database in AWS. Ne fornisce inoltre una visualizzazione unificata tramite il catalogo dati di Glue, disponibile per ETL, query e reportistica mediante servizi quali Amazon Athena, Amazon EMRe Amazon Redshift Spectrum. Glue genera automaticamente codice in Scala o Python per processi ETL, codice che è possibile personalizzare ulteriormente tramite gli strumenti già in uso. AWS Glue è un servizio serverless e pertanto non è necessario configurare e gestire le risorse di elaborazione.

D: Quali origini dati supporta AWS Glue?

AWS Glue offre il supporto nativo per i dati memorizzati in Amazon Aurora, Amazon RDS per MySQL, Amazon RDS per Oracle, Amazon RDS per PostgreSQL, Amazon RDS per SQL Server, Amazon Redshift, DynamoDB e Amazon S3 nonché nei database MySQL, Oracle, Microsoft SQL Server e PostgreSQL nei Virtual Private Cloud (Amazon VPC) in Amazon EC2. AWS Glue supporta anche (in beta) i flussi di dati provenienti da Amazon MSK, Amazon Kinesis Data Streams e Apache Kafka.

È anche possibile scrivere manualmente codice Scala o Python e importare librerie personalizzate e file Jar nei processi ETL di AWS Glue per accedere alle origini dati di cui AWS Glue non fornisce supporto nativo. Per ulteriori informazioni sull'importazione di librerie personalizzate consulta la documentazione corrispondente.

D: Come sono correlati AWS Glue e AWS Lake Formation?

R: Lake Formation sfrutta un’infrastruttura condivisa con AWS Glue che include i controlli della console, la creazione di codici ETL e il monitoraggio dei lavori, un catalogo dati comune e un’architettura senza server. Mentre AWS Glue rimane ancora focalizzato su questo tipo di funzioni, Lake Formation incorpora tutte le caratteristiche AWS Glue E fornisce funzionalità aggiuntive ideate per facilitare la creazione, la sicurezza e la gestione di un data lake. Per maggiori dettagli visita le pagine relative ad AWS Lake Formation.

Catalogo dati di AWS Glue

D: Cos'è il catalogo dati di AWS Glue?

Il catalogo dati di AWS Glue è un repository centralizzato in cui è possibile memorizzare i metadati strutturali e operativi degli asset di dati. Per un determinato set di dati, è possibile memorizzare definizione di tabella e percorso fisico, aggiungere attributi rilevanti e monitorare le modifiche ai dati nel corso del tempo.

Il catalogo dati di AWS Glue è compatibile con Apache Hive Metastore e ne è il sostituto ideale per applicazioni per Big Data in esecuzione in Amazon EMR. Per ulteriori informazioni su come configurare un cluster EMR per l'utilizzo con il catalogo dati di AWS Glue come Apache Hive Metastore, consulta questa pagina.

Il catalogo dati di AWS Glue offre inoltre di default l'integrazione con Amazon Athena, Amazon EMRe Amazon Redshift Spectrum. Una volta aggiunte le definizioni di tabella al catalogo dati di Glue, saranno disponibili per i processi ETL e per le query in Amazon Athena, Amazon EMR e Amazon Redshift Spectrum, consentendo una visuale completa dei dati sui diversi servizi.

D: In che modo è possibile inoltrare i metadati nel catalogo dati di AWS Glue?

AWS Glue offre diversi modi per compilare i metadati nel catalogo dati di AWS Glue. I crawler di Glue scansionano i diversi datastore disponibili per raccogliere automaticamente gli schemi e la struttura delle partizioni, compilando il catalogo dati di Glue con le definizioni di tabella e le statistiche corrispondenti. È anche possibile pianificare l'esecuzione periodica dei crawler, per garantire che i metadati siano sempre aggiornati e sincronizzati con i relativi dati. In alternativa, è possibile aggiungere e aggiornare i dettagli delle tabelle manualmente tramite la console di AWS Glue o richiamando l'API. È anche possibile eseguire istruzioni DDL Hive tramite la console di Amazon Athena oppure un client Hive in un cluster Amazon EMR. Infine, se è già disponibile un Apache Hive Metastore persistente, è possibile importare in blocco i metadati nel catalogo dati di AWS Glue tramite l'apposito script.

D: Cosa sono i crawler di AWS Glue?

I crawler di AWS Glue si collegano a un datastore, ne mettono a confronto i contenuti con un elenco di classificatori ordinato per priorità per estrarne lo schema dei dati e altre statistiche, quindi usa i metadati per compilare il catalogo dati di AWS Glue. I crawler possono essere avviati periodicamente per rilevare nuovi dati disponibili alla scansione o modifiche ai dati esistenti, incluse eventuali modifiche alle definizioni di tabella. Aggiungeranno nuove tabelle, nuove partizioni nelle tabelle esistenti e nuove versioni delle definizioni di tabella. Inoltre, è possibile personalizzarli per classificare tipi di file personalizzati.

D: In che modo è possibile importare dati da un'istanza Apache Hive Metastore esistente nel catalogo dati di AWS Glue?

È sufficiente eseguire un processo ETL che legga i dati da Apache Hive Metastore, li esporti in un formato intermedio in Amazon S3 e li reimporti nel catalogo dati di AWS Glue.

D: È necessario mantenere un Apache Hive Metastore anche se i metadati vengono memorizzati nel catalogo dati di AWS Glue?

Il catalogo dati di AWS Glue è compatibile con Apache Hive Metastore. È possibile utilizzare l'endpoint del catalogo dati di Glue come destinazione, per sostituire Apache Hive Metastore. Clicca qui per ottenere ulteriori informazioni su come configurare un cluster ai fini dell’utilizzo del catalogo dati di AWS Glue come Apache Hive Metastore.

D: Se Amazon Athena o Amazon Redshift Spectrum sono in uso e sono disponibili tabelle nel catalogo dati interno di Amazon Athena, in che modo è possibile iniziare a usare il catalogo dati di AWS Glue come repository comune dei metadati?

Prima di poter usare il catalogo dati di AWS Glue come repository comune dei metadati tra Amazon Athena, Amazon Redshift Spectrum e AWS Glue, è necessario aggiornare il catalogo dati di Amazon Athena a catalogo dati di AWS Glue. Consulta questa pagina per saperne di più sulla procedura di aggiornamento.

D: Quali servizi di analisi utilizzano il catalogo dati di AWS Glue?

I metadati memorizzati nel catalogo dati di AWS Glue possono essere consultati tramite Glue ETL, Amazon Athena, Amazon EMR, Amazon Redshift Spectrum e servizi terzi.

Estrazione, trasformazione e caricamento (ETL)

D: Con quali sintassi di programmazione è possibile scrivere il codice ETL per AWS Glue?

È possibile utilizzare Scala o Python.

D: In che modo è possibile personalizzare il codice ETL generato da AWS Glue?

Il sistema di raccomandazione di script ETL di AWS Glue genera codice Scala o Python. Sfrutta la libreria ETL personalizzata di Glue per semplificare l'accesso alle origini dati e per gestire l'esecuzione dei processi. Per ulteriori dettagli sulla libreria, consulta la documentazione. È possibile compilare codice ETL utilizzando la libreria personalizzata di AWS Glue o scrivere codice in Scala o Python tramite l'editor di script nella console di AWS Glue, scaricando il codice generato automaticamente e modificandolo in un ambiente IDE. È inoltre possibile iniziare con uno dei tanti esempi in hosting nel repository GitHub e personalizzarne il codice.

D: È possibile importare librerie personalizzate insieme agli script ETL?

Sì. È possibile importare librerie Python personalizzate e file Jar in un processo ETL di AWS Glue. Clicca qui per consultare la documentazione pertinente e ottenere ulteriori informazioni.

D: È possibile usare codici personalizzati?

Sì. È possibile compilare codice personalizzato utilizzando la libreria ETL di AWS Glue, oppure scrivere codice Scala o Python e caricarlo in un processo ETL di Glue. Clicca qui per consultare la documentazione pertinente e ottenere ulteriori informazioni.

D: In che modo è possibile sviluppare un codice ETL personalizzato in un ambiente IDE?

È possibile creare e connettere endpoint di sviluppo che offrano modalità differenti per connettere i notebook e gli ambienti IDE.

D: In che modo è possibile creare un flusso di lavoro ETL end-to-end utilizzando diversi processi in AWS Glue?

Oltre alla libreria ETL e al codice che genera automaticamente, AWS Glue fornisce un set di caratteristiche di orchestrazione affidabili che permettono di gestire le dipendenze tra diversi processi per creare flussi di lavoro ETL end-to-end. I processi ETL di AWS Glue possono essere programmati o attivati in seguito al completamento di un processo. È possibile attivare diversi processi in parallelo o in sequenza collegandoli al completamento di un altro processo. È inoltre possibile attivare uno o più processi di Glue tramite un'origine esterna, ad esempio una funzione AWS Lambda.

D: In che modo AWS Glue monitora le dipendenze?

AWS Glue gestisce le dipendenze tra due o più processi o le dipendenze di eventi esterni tramite trigger. I trigger possono essere collegati a uno o più processi e richiamare un o più processi. Inoltre, i trigger possono essere programmati in modo da richiamare periodicamente determinati processi, attivati on demand oppure al completamento di un processo.

D: In che modo AWS Glue gestisce gli errori?

AWS Glue monitora i parametri di evento e gli errori dei processi e inoltra tutte le notifiche in Amazon CloudWatch. Con Amazon CloudWatch, è possibile configurare una serie di azioni da eseguire in seguito alla ricezione di determinate notifiche di AWS Glue. Ad esempio, una notifica di errore o di operazione completata generata da Glue può agire da trigger per una funzione AWS Lambda. Glue dispone inoltre di un comportamento predefinito che provvederà a ripetere tre volte le operazioni interrotte da errori prima di inviare una notifica di errore.

D: È possibile eseguire processi ETL esistenti con AWS Glue?

Sì. È possibile eseguire codice Scala o Python esistente in AWS Glue. Sarà sufficiente caricare il codice in Amazon S3 e creare uno o più processi che lo utilizzino. Lo stesso codice può essere riutilizzato su più processi indicando il medesimo percorso in Amazon S3 per ciascuno di essi.

D: In che modo è possibile utilizzare AWS Glue per eseguire operazioni ETL su flussi di dati?

AWS Glue supporta ETL su flussi provenienti da Amazon Kinesis Data Streams, Apache Kafka e Amazon MSK. Aggiungi il flusso al catalogo dati di Glue e sceglilo come origine dati durante la fase di configurazione dell’attività AWS Glue.

D: È necessario utilizzare sia il catalogo dati di AWS Glue Data Catalog sia i processi ETL di Glue per avvalersi del servizio?

No. Anche se consigliamo l'utilizzo sia del catalogo dati di AWS Glue sia dei processi ETL di Glue per ottenere un'esperienza ETL completa, è possibile utilizzare ciascuna di esse in modo indipendente.

D: Quando è consigliato usare AWS Glue e quando Amazon Kinesis Data Analytics?

Sia AWS Glue che Amazon Kinesis Data Analytics possono consentire di elaborare i flussi di dati. AWS Glue è consigliato quando i tuoi casi d’uso sono principalmente ETL e quando desideri eseguire attività su una piattaforma serverless basata su Apache Spark. Amazon Kinesis Data Analytics è consigliato quando i tuoi casi d’uso sono principalmente di analisi e quando desideri eseguire attività su una piattaforma serverless basata su Apache Flink.

Lo streaming ETL in AWS Glue consente l’ETL avanzato sui flussi di dati utilizzando la stessa piattaforma serverless a consumo che utilizzi attualmente per le tue attività in batch. AWS Glue genera codice ETL personalizzabile per preparare i tuoi dati al volo ed è dotato di una funzionalità incorporata per elaborare i flussi di dati semistrutturati o caratterizzati da uno schema in evoluzione. Utilizza Glue per applicarne sia le trasformazioni incorporate che quelle native di Spark ai flussi di dati e caricale nel tuo data lake o data warehouse.

Amazon Kinesis Data Analytics ti consente di creare sofisticate applicazioni di streaming per analizzare i flussi di dati in tempo reale. Fornisce un runtime Apache Flink serverless che si ridimensiona automaticamente senza server e salva lo stato dell’applicazione in modo duraturo. Utilizza Amazon Kinesis Data Analytics per l’analisi in tempo reale e una più generale elaborazione dei flussi di dati.

D: Quando è consigliato usare AWS Glue e quando Amazon Kinesis Data Firehose?

Sia AWS Glue che Amazon Kinesis Data Firehose possono essere utilizzati per lo streaming ETL. AWS Glue è consigliato per processi ETL complessi, come l’unione di flussi e il partizionamento dell’output in Amazon S3 in base al contenuto dei dati. Amazon Kinesis Data Firehose è consigliato quando i tuoi casi d’uso interessano specificamente la distribuzione e la preparazione dei dati da elaborare al termine della distribuzione.

Lo streaming ETL in AWS Glue consente l’ETL avanzato sui flussi di dati utilizzando la stessa piattaforma serverless a consumo che utilizzi attualmente per le tue attività in batch. AWS Glue genera codice ETL personalizzabile per preparare i tuoi dati al volo ed è dotato di una funzionalità incorporata per elaborare i flussi di dati semistrutturati o caratterizzati da uno schema in evoluzione. Utilizza Glue per applicare trasformazioni complesse ai flussi di dati, arricchire i record con informazioni provenienti da altri flussi e datastore persistenti e carica quindi i record nel tuo data lake o data warehouse.

Lo streaming ETL in Amazon Kinesis Data Firehose ti permette di acquisire, trasformare e distribuire facilmente flussi di dati. Amazon Kinesis Data Firehose assicura funzionalità ETL tra cui la trasformazione dati serverless tramite AWS Lambda e la conversione del formato da JSON a Parquet. Comprende le funzionalità ETL progettate per facilitare l’elaborazione dei dati dopo la distribuzione ma non include le funzionalità ETL avanzate supportate da AWS Glue.

Pulisci e deduplica i dati

D: Quali problemi posso risolvere tramite la funzione di trasformazione ML di FindMatches?

FindMatches viene di norma utilizzato per risolvere problemi di collegamento delle voci e di deduplicazione dei dati. La deduplicazione è necessaria quando provi a identificare voci di un database che sono “identiche” a livello concettuale ma per le quali disponi di voci separate. Tale problema è irrilevante nel caso in cui sia possibile identificare doppioni di voci tramite una chiave univoca (per esempio, laddove determinati prodotti possano essere identificati singolarmente grazie a un codice UPC) ma può rivelarsi alquanto fastidioso in presenza di “corrispondenze ambigue”.

In apparenza il collegamento delle voci presenta essenzialmente lo stesso problema della deduplicazione dei dati, eppure il termine identifica generalmente l’esecuzione di un “accoppiamento ambiguo” tra due database che non condividono una chiave univoca rispetto alla deduplicazione di un singolo database. Per esempio, consideriamo il problema derivante dall’accoppiamento di un grande database di clienti a un piccolo database di noti truffatori. FindMatches può essere utilizzato allo stesso modo per i problemi di collegamento delle voci e di deduplicazione.

Ad esempio, FindMatches in AWS Glue dispone di una funzione di trasformazione ML che ti permette di risolvere i seguenti problemi:

Collegare voci di pazienti tra ospedali così da consentire al personale medico di disporre di più informazioni di base e di trattare i vari casi utilizzando FindMatches su database separati che contengano campi comuni tra cui nome, data di nascita, indirizzo, numero di telefono ecc.

Deduplicare un database di film contenente colonne come “titolo”, “sinossi”, “anno di uscita”, “durata” e “cast”. Per esempio, uno stesso film potrebbe essere identificato a vario titolo come “Star Wars”, “Star Wars: una nuova speranza”, e “Star Wars: Episodio IV - Una nuova speranza (edizione speciale)”.

Raggruppare insieme in modo automatico tutti prodotti correlati in vetrina identificando gli elementi equivalenti all’interno di un catalogo di articoli di abbigliamento, laddove “equivalente” definisce l’uguaglianza dei prodotti senza tener conto di differenze di taglia e colori. Ad esempio: “Jeans Levi 501, taglia 34x34, colore blu” è definito in modo da avere una perfetta corrispondenza con “Jeans Levi 501 Jeans, taglia 32x31, colore nero”.

D: In che modo AWS Glue deduplica i dati?

La funzione di trasformazione ML di FindMatches in AWS Glue ti consente di individuare e collegare voci che fanno riferimento alla medesima entità ma non condividono un identificatore affidabile. Prima di FindMatches gli sviluppatori erano soliti risolvere i problemi di corrispondenza dei dati in modo deterministico, scrivendo infinite serie di regole realizzate “a mano”. Dietro le quinte, FindMatches sfrutta algoritmi di machine learning per capire come accoppiare le voci in base a ogni singolo criterio aziendale degli sviluppatori. FindMatches identifica dapprima le voci che il cliente desidera etichettare distinguendole in base all’effettiva corrispondenza e successivamente sfrutta il machine learning per creare una trasformazione ML. I clienti possono eseguire tale trasformazione sui loro database per individuare le voci corrispondenti o in alternativa richiedere a FindMatches di reperire ulteriori voci da etichettare in modo da rendere ancora più accurata la trasformazione ML.

D: Cosa sono le trasformazioni ML?

Le trasformazioni ML forniscono una destinazione per la creazione e la gestione di trasformazioni sottoposte a machine learning. Una volta create e addestrate, le trasformazioni ML possono essere eseguite in comuni script AWS Glue. I clienti selezionano uno specifico algoritmo (ad esempio, il FindMatches ML Transform) e inseriscono dataset ed esempi di addestramento, nonché i parametri di configurazione necessari a tale algoritmo. AWS Glue utilizzata gli input inseriti per elaborare una trasformazione ML che possa essere incorporata nel comune flusso di lavoro di un processo ETL.

D: Come funzionano le trasformazioni ML?

AWS Glue comprende algoritmi di trasformazione dei dataset basati sul machine learning che possono essere utilizzati dai clienti per creare trasformazioni ML personalizzate. Sono incluse la deduplicazione delle voci e l’individuazione delle corrispondenze.

I clienti iniziano visualizzando la scheda delle trasformazioni ML nella console (o utilizzando gli endpoint di servizio per le trasformazioni ML o accedendo all’addestramento delle stesse tramite l’interfaccia a riga di comando) per creare il primo modello di trasformazione ML personalizzato. La scheda della trasformazioni ML fornisce una panoramica semplice e intuitiva per la gestione delle trasformazioni degli utenti. In termini di flusso di lavoro le trasformazioni ML hanno requisiti distinti dalle altre trasformazioni, inclusa la necessità di addestramento separato, calibrazione dei parametri e flussi di lavoro di esecuzione, l’esigenza di valutare parametri qualitativi delle trasformazioni generate e il bisogno di gestire e raccogliere ulteriori etichette di tipo ground truth per l’addestramento e l’apprendimento attivo.

Per creare una trasformazione ML tramite la console, i clienti devono dapprima selezionare il tipo di trasformazione (ad esempio “deduplicazione voci” o “accoppiamento voci”) e fornire le corrette origini dati individuate in precedenza nel catalogo dati. A seconda della trasformazione, i clienti potrebbero dover inserire i dati delle etichette di tipo ground truth per l’addestramento oppure parametri aggiuntivi. I clienti possono monitorare lo stato dei loro processi di addestramento e visualizzare i parametri qualitativi di ciascuna trasformazione. (I parametri qualitativi sono segnalati utilizzando un set hold-out dei dati delle etichette forniti dal cliente.)

Una volta raggiunto il livello di rendimento desiderato, i clienti possono promuovere i modelli di trasformazione ML per l’utilizzo in produzione. Successivamente, le trasformazioni ML possono essere utilizzate durante i flussi di lavoro ETL sia codice autogenerato dal servizio sia in script definiti dall’utente inoltrati con altri processi, analogamente alle trasformazioni preimpostate offerte nelle altre librerie AWS Glue.

D: È disponibile una presentazione sull’utilizzo di AWS Glue (e AWS Lake Formation) ove si spieghi come individuare corrispondenze e deduplicare voci?

A: Sì. Una registrazione completa dell’AWS Online Tech Talk "Accoppiamenti ambigui e deduplicazione dei dati con la funzione di trasformazione ML per AWS Lake Formation" è disponibile qui.

Integrazioni di prodotti AWS

D: In quali casi è indicato utilizzare AWS Glue e in quali AWS Data Pipeline?

AWS Glue offre un servizio ETL gestito eseguibile in un ambiente Apache Spark serverless. In questo modo è possibile concentrare l'attenzione sui processi ETL senza dover configurare o gestire le risorse di elaborazione. L'approccio di AWS Glue assegna la massima priorità ai dati e permette di concentrare l'attenzione sulle loro caratteristiche e su come gestirli per conferire loro una forma da cui sia possibile derivare informazioni strategiche. Offre inoltre un catalogo dati integrato che rende i metadati disponibili per le operazioni ETL e per le query inoltrate con Amazon Athena e Amazon Redshift Spectrum.

AWS Data Pipeline fornisce un servizio di orchestrazione gestito che offre una maggiore flessibilità in termini di ambiente di esecuzione, di accesso e controllo sulle risorse di elaborazione in cui eseguire il codice e di codice di elaborazione dei dati. AWS Data Pipeline lancia le risorse di elaborazione nell'account, consentendo l'accesso diretto alle istanze Amazon EC2 o ai cluster Amazon EMR.

Inoltre, i processi ETL di AWS Glue sono basati su Scala o Python. Se il caso d'uso richiede l'impiego di un motore diverso da Apache Spark, oppure se desideri eseguire un set eterogeneo di processi su diversi motori, ad esempio Hive e Pig, AWS Data Pipeline è la scelta migliore.

D: In quali casi è indicato utilizzare AWS Glue e in quali altri Amazon EMR?

AWS Glue sfrutta un ambiente Apache Spark per offrire un ambiente di esecuzione a scalabilità orizzontale per i processi di trasformazione dei dati. AWS Glue ricava, elabora e monitora i processi ETL per semplificare le procedure di creazione e di manutenzione dei processi. Amazon EMR fornisce accesso diretto all'ambiente Hadoop e offre un livello di accesso inferiore e una maggiore flessibilità nell'utilizzo di altri strumenti oltre a Spark.

D: In quali casi è più indicato utilizzare AWS Glue o AWS Database Migration Service?

AWS Database Migration Service (DMS) aiuta a migrare database in AWS in modo semplice e sicuro. Per i casi d'uso che richiedono una migrazione di database dall'ambiente locale in AWS oppure una replica di database tra origini in locale e in AWS, il servizio più indicato è AWS DMS. Una volta caricati i dati in AWS, AWS Glue può essere utilizzato per trasferire e trasformare i dati dall'origine dati in un altro database o data warehouse, ad esempio Amazon Redshift.

D: In quali casi è più indicato utilizzare AWS Glue o AWS Batch?

AWS Batch consente di eseguire in AWS ogni tipo di processo di elaborazione in batch in modo semplice ed efficiente. Crea e gestisce le risorse di elaborazione nell'account AWS, fornendo controllo e visibilità completi sulle risorse utilizzate. AWS Glue è un servizio ETL completamente gestito che offre un ambiente Apache Spark per l'esecuzione di processi ETL. Nei casi d'uso che richiedono estrazione, trasformazione e caricamento, il servizio consigliato è AWS Glue. Per tutti gli altri casi d'uso di elaborazione in batch, inclusi alcuni tipi di processi ETL, è più indicato AWS Batch.

D: In quali casi è più indicato utilizzare AWS Glue o Amazon Kinesis Analytics?

Amazon Kinesis Data Analytics permette di eseguire query SQL standard su flussi di dati in entrata. I risultati possono essere salvati indicando una destinazione, ad esempio Amazon S3. Una volta che i dati sono disponibili nell'origine dati di destinazione, è possibile avviare un processo ETL di AWS Glue per eseguire la trasformazione dei dati e prepararli per ulteriore analisi o reportistica.

Prezzi e fatturazione

D: Come viene fatturato l'utilizzo di AWS Glue?

Per il catalogo dati di AWS Glue è previsto un piano di utilizzo gratuito, oltre il quale viene addebitata una tariffa mensile per la memorizzazione e l'accesso ai metadati. Inoltre, è prevista una tariffa a tempo, fatturata al secondo, per l'esecuzione dei processi ETL e dei crawler, con un addebito minimo corrispondente a 10 minuti. Se scegli di utilizzare un endpoint di sviluppo per sviluppare in modo interattivo il codice ETL, sarà addebitata una tariffa a tempo, fatturata al secondo, per la durata del provisioning dell'endpoint, con un addebito minimo corrispondente a 10 minuti. Per ulteriori informazioni consulta la pagina dei prezzi.

D: Quando inizia e quando finisce il periodo di fatturazione di un processo AWS Glue?

La fatturazione inizia appena il processo viene pianificato e termina al suo completamento. Con AWS Glue, vengono addebitati solo i costi relativi alla durata di esecuzione del processo e non ai tempi legati a provisioning e chiusura dell'ambiente.

Sicurezza e disponibilità

D: In che modo AWS Glue protegge i miei dati?

È prevista la crittografia lato server dei dati inattivi e la crittografia SSL per i dati in transito.

D: Quali sono i limiti del servizio associati ad AWS Glue?

Consulta la documentazione corrispondenti per ulteriori informazioni sui limiti del servizio.

D: In quali regioni è disponibile AWS Glue?

Per ulteriori informazioni sulla disponibilità del servizio AWS Glue, consulta la sezione relativa alla tabella delle regioni AWS.

D: Quante unità di elaborazione dati o DPU (Data Processing Unit) sono allocate agli endpoint di sviluppo?

A ogni endpoint di sviluppo vengono assegnate di default 5 DPU. Un endpoint di sviluppo può essere configurato con un minimo di 2 DPU e un massimo di 5 DPU.

D: In che modo è possibile ricalibrare dimensioni e prestazioni di un processo ETL di AWS Glue?

È sufficiente specificare il numero di DPU che desideri allocare a ciascun processo ETL. Un processo ETL di Glue richiede almeno 2 DPU. Di default, AWS Glue alloca tuttavia 10 DPU per ogni processo ETL.

D: In che modo è possibile monitorare l'esecuzione dei processi di AWS Glue?

AWS Glue fornisce lo stato di ciascun processo e inoltra le notifiche degli eventi ad Amazon CloudWatch. È possibile impostare le notifiche SNS tramite le azioni di CloudWatch per essere informati sui processi completati o interrotti da errori.

Contratto sul livello di servizio (SLA)

D: Cosa garantisce l'SLA di AWS Glue?

L’accordo SLA relativo ad AWS Glue garantisce una percentuale di tempo di attività mensile di almeno il 99,9% per tale servizio.

D: Come posso sapere se ho diritto a un credito di assistenza SLA?

Hai diritto a un credito di assistenza SLA per AWS Glue, secondo l’SLA di AWS Glue, se più di una zona di disponibilità in cui stai eseguendo un'attività, all'interno della stessa regione ha una percentuale di tempo di attività mensile inferiore al 99,9% durante un qualsiasi ciclo di fatturazione mensile.

Per consultare i dettagli completi sui termini e le condizioni del contratto sul livello di servizio e per ricevere indicazioni sulla presentazione di una richiesta, consulta la pagina dei dettagli relativa all’accordo SLA relativo ad AWS Glue.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Visita la pagina dei prezzi

Ulteriori informazioni sui prezzi di AWS Glue.

Ulteriori informazioni 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Inizia subito nella console

Inizia subito a utilizzare Amazon Glue nella Console di gestione AWS.

Accedi