Real-Time Analytics con Spark Streaming

Muchas organizaciones utilizan informes de transmisión de datos en lotes en tiempo real para obtener información estratégica y procesable sobre las tendencias comerciales a largo plazo. Un número cada vez mayor de clientes utilizan el procesamiento de datos de streaming con datos nuevos y dinámicos generados continuamente en casos de uso de macrodatos. Los datos de transmisión se utilizan para producir informes, realizar acciones basadas en umbrales o llevar a cabo formas más sofisticadas de análisis de datos, como aplicar algoritmos de machine learning.

La orientación sobre Análisis en tiempo real con Spark Streaming configura en forma automática los servicios de AWS necesarios para incorporar, almacenar, procesar y analizar fácilmente los datos en tiempo real y por lotes mediante funciones de arquitectura inteligente comercial y arquitectura de macrodatos. Esta orientación implementa una arquitectura de análisis de transmisión de datos altamente disponible, segura, flexible y rentable en la nube de AWS que utiliza Apache Spark Streaming y Amazon Kinesis

Información general

El siguiente diagrama presenta la arquitectura que puede crear mediante el código de muestra en GitHub.

Arquitectura de la orientación sobre Real-Time Analytics con Spark Streaming

La orientación implementa una red de Amazon Virtual Private Cloud (Amazon VPC) con una subred pública y una subred privada. La subred pública contiene una puerta de enlace NAT y un host bastión. La subred privada aloja el clúster de Amazon EMR con Apache Zeppelin.

Amazon Kinesis Data Streams recopila datos provenientes de orígenes de datos y los envía a través de una gateway NAT al clúster de Amazon EMR. Después de que la aplicación de Spark Streaming procese los datos, almacena los datos en un bucket de Amazon S3.

Real-Time Analytics con Spark Streaming

Versión 1.2.0
Última actualización: 12/2021
Autor: AWS

¿Esta guía fue de ayuda?
Proporcione su opinión 

Características

Implementación de referencia de Real-Time Analytics con Spark Streaming

La orientación sobre Real-Time Analytics con Spark Streaming aprovisiona de forma automática y configura los servicios de AWS necesarios para iniciar el procesamiento de datos por lotes y en tiempo real en cuestión de minutos.

Compatibilidad con Apache Zeppelin

Esta orientación utiliza Apache Zeppelin, un bloc de notas basado en la web para el análisis de datos interactivo, a fin de permitir que los clientes visualicen tanto los datos en tiempo real como por lotes.

Aplicación de Spark Streaming

Esta orientación está diseñada para utilizar su propia aplicación escrita en Java o Scala.
Icono de creación
Implemente una solución de AWS por su cuenta

Revise nuestra biblioteca de soluciones de AWS para obtener respuestas a problemas de arquitectura comunes.

Más información 
Buscar un socio de APN
Buscar una solución de un socio de AWS

Encuentre socios de AWS que lo ayuden a comenzar.

Más información 
Icono de exploración
Explorar orientación

Encuentre diagramas de arquitectura prescriptivos, código de muestra y contenido técnico para casos de uso comunes.

Más información