De nombreuses organisations utilisent des données par lots et des rapports de données en streaming en temps réel pour obtenir des informations stratégiques et exploitables sur les tendances commerciales à long terme. Un nombre croissant de clients utilisent le traitement des données diffusées en continu avec les données nouvelles et dynamiques générées en continu dans les cas d’utilisation Big Data. Les données en streaming sont utilisées pour produire des rapports, réaliser des actions basées sur des seuils ou effectuer des formes plus complexes d'analyse des données, comme l'application d'algorithmes de machine learning.

La solution Real-Time Analytics with Spark Streaming configure automatiquement les services AWS nécessaires pour ingérer, stocker, traiter et analyser facilement les données en temps réel et par lots en utilisant les fonctions de l'architecture d'aide à la décision et de l'architecture de données Big Data. Cette solution déploie dans le Cloud AWS une architecture d'analytique des données en streaming hautement disponible, sécurisée, flexible et rentable qui exploite Apache Spark Streaming et Amazon Kinesis

Présentation

Le diagramme ci-dessous présente l'architecture que vous pouvez créer à l'aide de l'exemple de code sur GitHub.

Architecture de la solution Real-Time Analytics with Spark Streaming

Cette solution déploie un réseau Amazon Virtual Private Cloud (Amazon VPC) avec un sous-réseau public et un sous-réseau privé. Le sous-réseau public contient une passerelle NAT et un hôte Bastion. Le sous-réseau privé héberge le cluster Amazon EMR avec Apache Zeppelin.

Amazon Kinesis Data Streams collecte des données à partir de sources de données et les envoie via la passerelle NAT au cluster Amazon EMR. Une fois les données traitées par l'application Spark Streaming, elles sont stockées dans un compartiment Amazon S3.

Real-Time Analytics with Spark Streaming

Version 1.2.0
Date de la dernière mise à jour : 12/2021
Auteur : AWS

Ressources d'implémentation

Ce guide vous a-t-il été utile ?
Donner mon avis 

Fonctions

Implémentation de référence Real-Time Analytics with Spark Streaming

La solution Real-Time Analytics with Spark Streaming alloue et configure automatiquement les services AWS nécessaires pour commencer à traiter les données en temps réel et par lots en quelques minutes.

Support Apache Zeppelin

La solution tire parti d'Apache Zeppelin, un bloc-notes web d'analytique des données interactive qui permet aux clients de visualiser à la fois leurs données en temps réel et leurs données par lots.

Application Spark Streaming

Cette solution est conçue pour vous permettre d'utiliser votre propre application écrite en langage Java ou Scala.
Icône Créer
Déployer vous-même votre solution

Parcourez notre bibliothèque des implémentations des solutions AWS pour obtenir des réponses aux problèmes d'architecture courants.

En savoir plus 
Rechercher un partenaire APN
Rechercher un partenaire APN

Trouvez des partenaires consultants et technologiques certifiés AWS pour vous aider à commencer.

En savoir plus 
Icône Explorer
Explorer les offres de conseil pour les solutions

Parcourez notre portefeuille d'offres de conseil pour obtenir une aide approuvée AWS au déploiement de solutions.

En savoir plus