Cloud AWS
Inizia subito con i flussi di dati

Apache Kafka è un sistema di messaggistica distribuito open source che consente di creare applicazioni in tempo reale tramite flussi di dati. I flussi di dati, ad esempio dati di clickstream di siti Web, transazioni finanziarie e log di applicazioni, vanno inviati al cluster Kafka, che li memorizza nel buffer e li inoltra alle applicazioni di elaborazione di flussi basate su framework quali Apache Spark Streaming, Apache Storm o Apache Samza.

diagram-kafka

Una distribuzione Kafka in Amazon EC2 fornisce una soluzione scalabile e ad alte prestazioni per l'acquisizione di flussi di dati. Per distribuire Kafka in Amazon EC2, è necessario allocare i tipi di istanza EC2 desiderati, installare e configurare i componenti software (Kafka e Apache Zookeeper) ed effettuare il provisioning dello storage a blocchi necessario per mantenere il throughput di flussi di dati tramite Amazon Elastic Block Store (EBS). Per facilitare la gestione da parte del cluster Kafka di eventi inattesi quali i picchi di volume di dati che andrebbero oltre la capacità del flusso, è possibile configurare la replica tramite Apache Zookeeper, che monitora i nodi all'interno del cluster Kafka e ne coordina la distribuzione dei processi. Una volta installato Kafka, sarà necessario distribuire il protocollo HTTPS, effettuare la manutenzione delle autorità di certificazione e configurare le istanze Kafka per SSL, per garantire la sicurezza del cluster.

L'esecuzione di cluster Kafka in Amazon EC2 fornisce una piattaforma infrastrutturale affidabile e scalabile, che però richiede la gestione, il monitoraggio e il dimensionamento di una flotta di server, obbliga ad effettuare una manutenzione continua dello stack di software e deve essere protetta in modo continuo, tutte attività che pesano sugli oneri amministrativi. Amazon Kinesis Streams risolve questo problema poiché fornisce un servizio gestito appositamente creato per semplificare l'utilizzo di flussi di dati in AWS. Consente infatti di acquisire e memorizzare i flussi di dati in modo affidabile, rendendo disponibili i dati alle applicazioni di elaborazione di flussi in tempo reale. Bastano pochi clic sulla console di Amazon Kinesis per effettuare il provisioning di un sistema di acquisizione di flussi di dati gestito con Amazon Kinesis Streams. Amazon Kinesis Streams replica automaticamente i dati su tre zone di disponibilità pe fornire elevata durabilità dei dati. Ridimensionare, proteggere e gestire i flussi è semplice con l'API e l'integrazione con i servizi AWS, tra cui AWS IAM, Amazon CloudWatch e AWS CloudTrail.

I flussi di dati possono essere elaborati con applicazioni create in Amazon Kinesis Analytics o altri framework di elaborazione tra cui Spark Streaming e Kinesis Client Library (KCL). Sarà possibile utilizzare i dati elaborati per alimentare pannelli di controllo in tempo reale, generare avvisi, implementare opzioni di prezzo dinamiche, pubblicare inserzioni mirate e altro ancora.

Per un confronto tra Amazon Kinesis e Kafka, fai clic qui.

440x220_APN-Blog

Questo punto mostra come configurare Apache Kafka in EC2, utilizzare Spark Streaming in EMR per elaborare i dati in entrata negli argomenti Apache Kafka e interrogare i flussi di dati mediante Spark SQL in EMR.

Leggi il post completo »

In questo post sono utilizzati i flussi pubblici di Twitter per analizzare quasi in tempo reale la popolarità dei candidati repubblicani e democratici. Mostreremo come integrare Amazon Kinesis Firehose, AWS Lambda (con funzione in Python) e Amazon Elasticsearch Service per creare una piattaforma completa di rilevamento quasi in tempo reale.

Leggi il post completo »

Questo post del blog illustra un modo semplice ed efficace per ottenere persistenza dei dati in Amazon S3 a partire da Amazon Kinesis Streams utilizzando AWS Lambda e Amazon Kinesis Firehose.

Leggi il post completo »

Per leggere altri post del blog relativi ai flussi di dati e ai Big Data, visita il blog di AWS sui Big Data »


Amazon Kinesis è molto semplice da utilizzare. Accedi alla Console di gestione AWS e avvia Amazon Kinesis.

 

Inizia a usare Amazon Kinesis