Inizia a usare AWS gratis

Crea un account gratuito
Oppure accedi alla console

Il piano gratuito di AWS include 750 ore di nodi di cache Micro con Amazon ElastiCache.

Visualizza i dettagli del piano gratuito di AWS »

D: Cos’è AWS Data Pipeline?

AWS Data Pipeline è un servizio Web che consente di programmare le attività di movimento ed elaborazione regolare dei dati sul cloud AWS con la massima semplicità. AWS Data Pipeline si integra con i sistemi di storage locali e basati sul cloud per consentire agli sviluppatori di utilizzare i loro dati quando ne hanno bisogno, dove desiderano e nel formato richiesto. AWS Data Pipeline consente di definire velocemente una catena dipendente di origini dati, destinazioni e attività predefinite o personalizzate di elaborazione dei dati note come pipeline. In base alla programmazione definita, la pipeline esegue periodicamente le attività di elaborazione quali la copia dei dati distribuiti, le trasformazioni SQL, le applicazioni MapReduce o gli script personalizzati su destinazioni quali Amazon S3, Amazon RDS o Amazon DynamoDB. Eseguendo la logica di programmazione, ripetizione tentativi ed errori per questi flussi di lavoro come un servizio completamente gestito e ad elevata disponibilità, AWS Data Pipeline assicura la resistenza e l’elevata disponibilità delle pipeline.

D: Cosa è possibile fare con AWS Data Pipeline?

AWS Data Pipeline consente di effettuare in modo semplice e veloce il provisioning delle pipeline ed eliminare così la necessità di sviluppo e manutenzione necessarie per gestire le operazioni quotidiane sui dati e permettere di focalizzarsi sulla generazione di informazioni approfondite estrapolate dai dati. È sufficiente specificare le origini dati, la programmazione e le attività di elaborazione richieste per la pipeline dei dati. AWS Data Pipeline gestisce l’esecuzione e il monitoraggio delle attività di elaborazione su un’infrastruttura a elevata disponibilità e tollerante ai guasti. Per agevolare ulteriormente il processo di sviluppo, AWS Data Pipeline offre inoltre attività integrate per azioni comuni quali la copia dei dati tra Amazon S3 e Amazon RDS o l’esecuzione di una query sui dati registro di Amazon S3.

D: Quali sono le differenze tra AWS Data Pipeline e il servizio Amazon Simple Workflow?

Mentre entrambi i servizi offrono capacità di monitoraggio delle esecuzioni, ripetizione tentativi e gestione delle eccezioni e la capacità di eseguire azioni arbitrarie, AWS Data Pipeline è progettato specificatamente per facilitare le fasi specifiche che sono comuni tra la maggior parte dei flussi di lavoro basati sui dati, in particolare l’esecuzione di attività dopo che i dati immessi soddisfano specifici criteri di disponibilità, copiando facilmente i dati tra differenti datastore e programmando le trasformazioni concatenate. Questa focalizzazione estremamente specifica implica che le rispettive definizioni dei flussi di lavoro possono essere create rapidamente e senza dover disporre di conoscenze del codice o di programmazione.

D: Cos’è una pipeline?

Una pipeline è la risorsa AWS Data Pipeline che contiene la definizione della catena dipendente di origini dati, destinazioni e attività predefinite o personalizzate di elaborazione dei dati richieste per eseguire la logica di business.

D: Cos’è un nodo di dati?

Un nodo di dati è una rappresentazione dei dati aziendali. Un nodo di dati può ad esempio fare riferimento a un percorso Amazon S3 specifico. AWS Data Pipeline supporta un linguaggio di espressione che facilita la creazione di riferimenti ai dati che sono generati in modo regolare. Ad esempio, è possibile specificare che il formato dei dati Amazon S3 sia s3://example-bucket/my-logs/logdata-#{scheduledStartTime('YYYY-MM-dd-HH')}.tgz.

D: Cos'è un’attività?

Un’attività è un’azione che AWS Data Pipeline avvia per conto dell’utente come parte di una pipeline. Esempi di attività sono lavori EMR o Hive, copie, query SWL o script della riga di comando.

D: Cos'è una condizione preliminare?

Una condizione preliminare è un controllo di disponibilità che può essere facoltativamente associato a un’origine dati o a un’attività. Se l’origine dati è associata a un controllo delle condizioni preliminari, tale controllo deve essere completato correttamente prima che sia avviata qualsiasi attività che consuma l’origine dati. Se l’attività è associata a una condizione preliminare, tale controllo delle condizioni preliminari deve essere completato correttamente prima che l’attività sia eseguita. Ciò può risultare utile se si esegue un’attività costosa da calcolare e che non dovrebbe essere eseguita fino a quando sono soddisfatti criteri specifici.

D: Cos'è una programmazione?

Le programmazioni definiscono quando vengono eseguite le attività della pipeline e la frequenza con la quale il servizio si aspetta che i dati siano disponibili. Tutte le programmazioni devono avere una data di inizio e una frequenza, ad esempio ogni giorno a partire dal 1° gennaio 2013 alle ore 15. Le programmazioni possono avere facoltativamente una data di fine, dopo la quale il servizio AWS Data Pipeline non esegue alcuna attività. Quando si associa una programmazione a un’attività, tale attività viene eseguita su di essa. Quando si associa una programmazione a un’origine dati, si informa il servizio AWS Data Pipeline che ci si aspetta che i dati siano aggiornati su tale programmazione. Ad esempio, se si definisce un’origine dati Amazon S3 con una programmazione oraria, il servizio si aspetta che l’origine dati contenga nuovi file ogni ora.



D: AWS Data Pipeline fornisce attività standard?

Sì, AWS Data Pipeline fornisce il supporto integrato per le seguenti attività:

  • CopyActivity: questa attività consente di copiare i dati tra le origini dati Amazon S3 e JDBC o eseguire una query SQL e copiarne il risultato su Amazon S3.
  • HiveActivity: questa attività consente di eseguire facilmente query Hive.
  • EMRActivity: questa attività consente di eseguire lavori Amazon EMR arbitrari.
  • ShellCommandActivity: questa attività consente di eseguire comandi o programmi della shell Linux arbitrari.

D: AWS Data Pipeline fornisce condizioni preliminari standard?

Sì, AWS Data Pipeline fornisce il supporto integrato per le seguenti condizioni preliminari:

  • DynamoDBDataExists: questa condizione preliminare controlla l’esistenza di dati all’interno di una tabella DynamoDB.
  • DynamoDBTableExists: questa condizione preliminare controlla l’esistenza di una tabella DynamoDB.
  • S3KeyExists: questa condizione preliminare controlla l’esistenza di un percorso AmazonS3 specifico.
  • S3PrefixExists: questa condizione preliminare controlla la presenza di almeno un file all’interno di un percorso specifico.
  • ShellCommandPrecondition: questa condizione preliminare esegue uno script arbitrario sulle risorse e controlla che sia eseguito correttamente.

D: È possibile utilizzare attività personalizzate?

Sì, è possibile utilizzare ShellCommandActivity per eseguire la logica arbitraria delle attività.

D: È possibile fornire condizioni preliminari personalizzate?

Sì, è possibile utilizzare ShellCommandPrecondition per eseguire la logica arbitraria delle condizioni preliminari.

D: È possibile definire più programmazioni per attività differenti nella stessa pipeline?

Sì, è sufficiente definire più oggetti della programmazione nel file di definizione della pipeline e associare la programmazione desiderata all’attività corretta tramite il relativo campo di programmazione. In questo modo è possibile definire una pipeline in cui, ad esempio, i file di registro sono archiviati in Amazon S3 ogni ora per indurre la generazione di un solo report aggregato al giorno.

D: Cosa succede se un’attività non riesce?

Un’attività non riesce se tutti i relativi tentativi non riescono. Per impostazione predefinita, un’attività viene rieseguita tre volte prima di entrare nello stato di errore definitivo. È possibile aumentare il numero di ripetizioni automatiche dei tentativi a 10. Il sistema non consente tuttavia di eseguire ripetizioni dei tentativi all’infinito. Dopo che un’attività ha esaurito i relativi tentativi, invia un allarme onFailure configurato e non tenterà un’ulteriore esecuzione a meno che non si emetta manualmente un comando di riesecuzione tramite CLI, API o il pulsante della console.

D: Come è possibile aggiungere allarmi a un’attività?

È possibile definire allarmi Amazon SNS per segnalare il corretto completamento, l’errore o il ritardo di un’attività. Creare un oggetto allarme e farvi riferimento nei gruppi onFail, onSuccess oppure onLate dell’oggetto dell’attività.

D: È possibile rieseguire manualmente le attività non riuscite?

Sì. È possibile rieseguire una serie di attività completate o non riuscite ripristinandone lo stato su PROGRAMMATA. Ciò è possibile tramite il pulsante di riesecuzione dell’interfaccia grafica o modificandone lo stato nella riga di comando o nell’API. In questo modo si programma immediatamente un ricontrollo di tutte le dipendenze dell’attività, seguito dall’esecuzione di ulteriori tentativi dell’attività. A seguito di successivi errori, l’attività eseguirà il numero originali di ripetizione tentativi.

D: Su quali risorse sono eseguite le attività?

Le risorse AWS Data Pipeline sono eseguite sulle risorse di calcolo che possiedi. Esistono due tipi di risorse di calcolo: gestite da AWS Data Pipeline e gestite autonomamente. Le risorse gestite da AWS Data Pipeline sono cluster Amazon EMR o istanze di Amazon EC2 che il servizio AWS Data Pipeline lancia solo quando sono necessarie. Le risorse gestite autonomamente sono a esecuzione più prolungata e possono essere le risorse in grado di eseguire il Task Runner basato su Java di AWS Data Pipeline (hardware locale, un’istanza di Amazon EC2 gestita dal cliente, ecc.).

D: AWS Data Pipeline effettuerà il provisioning e terminerà le risorse di calcolo gestite da AWS Data Pipeline per mio conto?

Sì, verrà effettuato il provisioning delle risorse di calcolo quando la prima attività per un orario programmato che esegue tali risorse è pronta per l’esecuzione e tali istanze saranno terminate quando l’attività finale che utilizza le risorse è completata correttamente o non riesce.

D: È possibile utilizzare più risorse di calcolo sulla stessa pipeline?

Sì, è sufficiente definire più oggetti cluster nel file di definizione e associare il cluster da utilizzare per ciascuna attività tramite il rispettivo campo runsOn. In questo modo le pipeline associano risorse AWS e locali oppure utilizzano un mix di tipi di istanze per le loro attività, ad esempio, si potrebbe voler utilizzare un t1.micro per eseguire uno script rapido in maniera economica ma successivamente sulla pipeline potrebbe esserci un lavoro Amazon EMR che richiede la potenza di un cluster di istanze di dimensioni maggiori.

D: Posso eseguire attività sulle risorse locali o sulle risorse AWS che gestisco?

Sì. Per abilitare l’esecuzione di attività utilizzando le risorse locali, AWS Data Pipeline fornisce un pacchetto Task Runner che può essere installato sugli host locali. Questo pacchetto esegue continuamente il pooling del servizio AWS Data Pipeline per il lavoro da eseguire. Quando è necessario eseguire un’attività specifica sulle risorse locali, ad esempio eseguendo una procedura memorizzata DB o un dump del database, AWS Data Pipeline emetterà il comando appropriato al Task Runner. Per garantire l’elevata disponibilità delle attività della pipeline, facoltativamente è possibile assegnare più Task Runner di cui eseguire il pooling per un determinato lavoro. In questo modo, se un Task Runner non è disponibile, gli altri eseguono il suo lavoro.

D: Come installo un Task Runner sui miei host locali?

Per installare il pacchetto Task Runner sugli host locali, seguire la procedura riportata di seguito:

  1. Scaricare il pacchetto AWS Task Runner.
  2. Creare un file di configurazione contenente le credenziali AWS.
  3. Avviare l’agente Task Runner tramite il seguente comando:
    java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=[myWorkerGroup]
  4. Quando si definiscono le attività, impostare l’esecuzione dell’attività su [myWorkerGroup] in modo da distribuirle agli host precedentemente installati.

D: Come si inizia a utilizzare AWS Data Pipeline?

Per iniziare a usare AWS, è sufficiente accedere alla Console di gestione AWS e successivamente alla scheda AWS Data Pipeline. Qui è possibile creare una pipeline utilizzando un semplice editor di grafica.

D: Cosa è possibile fare con AWS Data Pipeline?

Con AWS Data Pipeline è possibile programmare e gestire lavori periodici di elaborazione dei dati. È possibile utilizzare il servizio per sostituire sistemi semplici che sono attualmente gestiti da soluzioni fragili basate su cron oppure per creare lavori di elaborazione dei dati complessi e in più fasi.

D: Esistono pipeline campione da utilizzare per provare AWS Data Pipeline?

Sì, nella documentazione sono disponibili pipeline campione. Nella console sono inoltre disponibili diversi modelli di pipeline da utilizzare per iniziare.

D: Quante pipeline è possibile creare in AWS Data Pipeline?

Per impostazione predefinita, ogni account può avere 100 pipeline.

D: Esistono limiti su ciò che è possibile immettere all’interno di una singola pipeline?

Per impostazione predefinita, ogni pipeline creata può avere 100 oggetti.

D: È possibile modificare i limiti?

Sì. Per modificare i limiti, è sufficiente contattarci.

D: I prezzi includono le tasse?

Salvo diversamente specificato, i prezzi sono al netto di eventuali tasse e imposte doganali, inclusa l'IVA ed eventuali imposte di vendita. Per i clienti con indirizzo di fatturazione in Giappone, l'utilizzo dei servizi AWS è soggetto all'imposta sul consumo giapponese. Ulteriori informazioni.