In quanto servizio ETL (Extract-Transform-Load) gestito, AWS Data Pipeline consente di definire lo spostamento e le trasformazioni dei dati tra i vari servizi AWS, nonché tra le risorse in sede. Utilizzando Data Pipeline, si definiscono i processi dipendenti per la creazione della pipeline, la quale comprende i nodi di dati che contengono le informazioni, le attività o una logica di business, come i lavori EMR o le query SQL che verranno eseguite in sequenza, nonché la pianificazione sulla cui base viene eseguita tale logica di business.

Ad esempio, se si desidera spostare i dati del clickstream memorizzati in Amazon S3 a Amazon Redshift, è necessario definire una pipeline con un S3DataNode che memorizza i file di registro, un HiveActivity che converte i file di registro in un file .csv utilizzando un cluster Amazon EMR e lo memorizza in S3, un RedshiftCopyActivity che copierà i dati da S3 a Redshift e un RedshiftDataNode che si collegherà al cluster Redshift. Un'opzione potrebbe essere quella di scegliere un programma da eseguire alla fine della giornata.

AWS Data Pipeline sposta i dati di clickstream da Amazon S3 a Amazon Redshift.

Utilizza AWS Data Pipeline per spostare i dati del clickstream da Amazon S3 a Amazon Redshift.

Inizia a usare AWS gratis

Crea un account gratuito
Oppure accedi alla Console

Il piano gratuito AWS per AWS Data Pipeline include 3 condizioni preliminari per la bassa frequenza e 5 attività a bassa frequenza.

Visualizza i dettagli del piano gratuito di AWS »

È inoltre possibile definire i prerequisiti per verificare se i dati sono disponibili prima di avviare una particolare attività. Nell'esempio precedente, sull'S3DataNode è possibile verificare se i file di registro sono disponibili prima di avviare HiveActivity.

AWS Data Pipeline gestisce:

  • La programmazione, l'esecuzione e la logica di ripetizione tentativi dei tuoi lavori.
  • Tracciamento delle dipendenze tra la tua logica di business, origini dati e precedenti fasi di elaborazione per assicurare che la logica non venga eseguita fino a quando vengano soddisfatte tutte le relative dipendenze.
  • L'invio di qualsiasi notifica necessaria di errore.
  • La creazione e la gestione delle risorse di calcolo che i tuoi lavori potrebbero richiedere.

 

Casi d'uso

Dati ETL per Amazon Redshift

Copiare le tabelle RDS o DynamoDB in S3, trasformare la struttura dei dati, eseguire analisi utilizzando query SQL e caricarle su Redshift.

Dati non strutturati ETL

Analizzare i dati non strutturati come i registri clickstream utilizzando Hive o Pig su EMR, combinarli con dati strutturati da RDS e caricarli su Redshift per una facile esecuzione di query.

Caricare i dati di registro AWS su Amazon Redshift

Caricare i file di registro, ad esempio dai registri di fatturazione AWS o AWS CloudTrail, Amazon CloudFront e Amazon CloudWatch, da Amazon S3 a Redshift.

Caricamento ed estrazione dei dati

Copiare i dati dalla tabella RDS o Redshift in S3 e viceversa.

Migrare al cloud

È possibile copiare facilmente i dati dall'archivio dati locale, come un database MySQL, e spostarli in un archivio dati AWS, come S3 per renderli disponibili a svariati servizi AWS come Amazon EMR, Amazon Redshift e Amazon RDS.

 

Funzione di backup e ripristino Amazon DynamoDB

Eseguire periodicamente il backup della tabella Dynamo DB su S3 a scopo di ripristino d'emergenza.

Inizia ora a utilizzare la pipeline dati AWS tramite la console di gestione, l'interfaccia a riga di comando AWS o le API di servizio.