Muchas organizaciones utilizan informes de transmisión de datos en lotes en tiempo real para obtener información estratégica y procesable sobre las tendencias comerciales a largo plazo. Con un número cada vez mayor de clientes que usan procesamiento de datos de streaming con datos nuevos y dinámicos generados continuamente en casos de uso de big data. Los datos de transmisión se utilizan para producir informes, realizar acciones basadas en umbrales o llevar a cabo formas más sofisticadas de análisis de datos, como aplicar algoritmos de machine learning.

La orientación sobre Análisis en tiempo real con Spark Streaming configura en forma automática los servicios de AWS necesarios para incorporar, almacenar, procesar y analizar fácilmente los datos en tiempo real y por lotes mediante funciones de arquitectura inteligente comercial y arquitectura de macrodatos. Esta orientación implementa una arquitectura de análisis de transmisión de datos altamente disponible, segura, flexible y rentable en la nube de AWS que utiliza Apache Spark Streaming y Amazon Kinesis

Información general

El siguiente diagrama presenta la arquitectura que puede crear mediante el código de muestra en GitHub.

Real-Time Analytics con Spark Streaming | Diagrama de arquitectura
 Haga clic para agrandar

Arquitectura de la orientación sobre Real-Time Analytics con Spark Streaming

La orientación implementa una red de Amazon Virtual Private Cloud (Amazon VPC) con una subred pública y una subred privada. La subred pública contiene una puerta de enlace NAT y un host bastión. La subred privada aloja el clúster de Amazon EMR con Apache Zeppelin.

Amazon Kinesis Data Streams recopila datos provenientes de orígenes de datos y los envía a través de una gateway NAT al clúster de Amazon EMR. Después de que la aplicación de Spark Streaming procese los datos, almacena los datos en un bucket de Amazon S3.

Real-Time Analytics con Spark Streaming

Versión 1.2.0
Última actualización: 12/2021
Autor: AWS

¿Esta guía fue de ayuda?
Proporcione su opinión 

Características

Implementación de referencia de Real-Time Analytics con Spark Streaming

La orientación sobre Real-Time Analytics con Spark Streaming aprovisiona de forma automática y configura los servicios de AWS necesarios para iniciar el procesamiento de datos por lotes y en tiempo real en cuestión de minutos.

Compatibilidad con Apache Zeppelin

Esta orientación utiliza Apache Zeppelin, un bloc de notas basado en la web para el análisis de datos interactivo, a fin de permitir que los clientes visualicen tanto los datos en tiempo real como por lotes.

Aplicación de Spark Streaming

Esta orientación está diseñada para utilizar su propia aplicación escrita en Java o Scala.
Icono de creación
Implemente usted mismo una solución

Consulte nuestra biblioteca de Implementaciones de soluciones de AWS para obtener respuestas a problemas de arquitectura comunes.

Más información 
Buscar un socio de APN
Buscar un socio de APN

Encuentre socios consultores y tecnológicos certificados por AWS que lo ayudarán a comenzar.

Más información 
Ícono de exploración
Explore las ofertas de asesoramiento sobre soluciones

Explore nuestra cartera de ofertas de asesoramiento para obtener ayuda autorizada por AWS con la implementación de la solución.

Más información