La nube de AWS
Comience con los datos de streaming

Apache Kafka es un sistema de mensajes distribuidos de código abierto que le permite crear aplicaciones en tiempo real con datos de transmisiones. Puede enviar datos de transmisiones como secuencias de clics de sitios web, transacciones financieras y registros de aplicación a su clúster de Kafka, el cual almacena los datos en búfer y los envía a aplicaciones de procesamiento de transmisiones creadas en marcos como Apache Spark Streaming, Apache Storm o Apache Samza.

diagram-kafka

La ejecución de una implementación de Kafka en Amazon EC2 proporciona una solución escalable de alto desempeño para el procesamiento de datos de streaming. Para implementar Kafka en Amazon EC2, debe seleccionar y aprovisionar sus tipos de instancias de EC2, instalar y configurar los componentes de software, incluidos Kafka y Apache Zookeeper y, a continuación, aprovisionar el almacenamiento en bloques necesario para alojar su desempeño de datos de streaming con Amazon Elastic Block Store (EBS). Para ayudar a su clúster de Kafka a administrar eventos inesperados como picos en el volumen de datos que exceden la capacidad de la streaming, puede añadir replicación con Apache Zookeeper, que monitoriza los nodos del clúster de Kafka y coordina la distribución de procesos entre los nodos. Una vez que ha instalado Kafka, deberá implementar HTTPS, mantener autoridades de certificados y configurar las instancias de Kafka para SSL para garantizar la seguridad del clúster de Kafka.

La ejecución de clústeres de Kafka en Amazon EC2 proporciona unaplataforma de infraestructura escalable y de confianza de de alto desempeño; sin embargo, es necesario que monitorice, escale y administre una flota de servidores, mantenga la pila de software y administre la seguridad del clúster, lo que puede suponer una carga administrativa significativa. Amazon Kinesis Streams resuelve este problema al proporcionar un servicio administrado diseñado a medida para facilitar el trabajo con datos de streaming en AWS. Captura y almacena datos de streaming de forma fiable y pone los datos a disposición en tiempo real para aplicaciones de procesamiento de transmisiones. Basta con unos cuantos clics en la consola de Amazon Kinesis para aprovisionar un sistema de procesamiento de datos de streaming administrado con Amazon Kinesis Streams. Amazon Kinesis Streams replica automáticamente los datos en tres zonas de disponibilidad, lo que aporta durabilidad a los datos. Puede escalar, proteger y administrar las transmisiones de forma sencilla con la API y las integraciones con otros servicios de AWS incluidos AWS IAM, Amazon CloudWatch y AWS CloudTrail.

Puede procesar los datos de sus transmisiones con aplicaciones de procesamiento creadas en Amazon Kinesis Analytics u otros marcos de procesamiento incluidos Spark Streaming y la biblioteca de clientes de Kinesis (KCL). Puede utilizar los datos procesados para potenciar paneles de control, generar alertas, implementar precios dinámicos y proporcionar anuncios dirigidos en tiempo real, entre muchos otros usos.

Para obtener más información acerca de las diferencias entre Amazon Kinesis y Kafka, haga clic aquí.

440x220_APN-Blog

En esta publicación se explica cómo configurar Apache Kafka en EC2, usar Spark Streaming en EMR para procesar datos de entrada en temas de Apache Kafka y realizar consultas en datos de streaming con Spark SQL en EMR.

Lea la publicación completa »

En esta publicación se utilizan transmisiones públicas de Twitter para analizar el desempeño de los candidatos, tanto republicano como democrático, casi en tiempo real. Le mostramos cómo integrar Amazon Kinesis Firehose, AWS Lambda (función de Python) y Amazon Elasticsearch Service para crear una plataforma de descubrimiento completa casi en tiempo real.

Lea la publicación completa »

En esta publicación del blog se explica una manera sencilla y eficaz de enviar datos a Amazon S3 de Amazon Kinesis Streams mediante AWS Lambda y Amazon Kinesis Firehose.

Lea la publicación completa aquí »

Para leer más publicaciones del blog sobre datos de streaming y big data, visite el blog de big data de AWS »


Es muy fácil comenzar a usar Amazon Kinesis. Solo inicie sesión en la consola de administración de AWS y lance Amazon Kinesis.

 

Comience con Amazon Kinesis