Conseils pour la mise en œuvre d’analytique en temps quasi réel avec Spark Streaming sur AWS

Ce guide explique comment configurer un environnement d’analytique des données en libre-service simple à lancer et à consulter pour les ingénieurs et les scientifiques des données. L’environnement de développement intégré (IDE) est basé sur les blocs-notes Jupyter, fournissant une interface interactive facilitant l’exploration des données, et inclut tous les outils nécessaires pour déboguer, créer et planifier des pipelines de données en temps quasi réel. L’environnement favorise une collaboration d’équipe sécurisée avec isolation de la charge de travail et permet aux administrateurs de mettre en service, de mettre à l’échelle et de d’annuler la mise en service eux-mêmes des ressources à partir d’une interface unique sans exposer la complexité de l’infrastructure sous-jacente ni compromettre la sécurité, la gouvernance et les coûts. Les administrateurs peuvent gérer indépendamment les configurations des clusters et optimiser en permanence les coûts, la sécurité, la fiabilité et les performances.

Veuillez noter : [Clause de non-responsabilité]

Diagramme d’architecture

[Description du schéma d’architecture]

Télécharger le diagramme d’architecture au format PDF

Guidance Architecture Diagram for Implementing Near Real-Time Analytics with Spark Streaming on AWS

Étape 1
Les équipes chargées des opérations cloud développent des modèles de clusters Amazon EMR dans AWS CloudFormation en fonction des spécifications souhaitées (telles que les types d’instances et les configurations réseau) et publient les modèles en tant que produits dans AWS Service Catalog pour le provisionnement en libre-service.

Étape 2
Les événements d’enchères ou les pixels des publicités Web capturent les impressions des utilisateurs et envoient les données à un point de terminaison Amazon Kinesis Data Streams.

Étape 3
Les équipes d’ingénierie des données se connectent à leurs espaces de travail dans Amazon EMR Studio. Ici, ils exploitent de façon autonome les clusters Amazon EMR. Ils peuvent également associer des clusters existants pour développer des applications Spark Streaming, telles que la validation des enchères ou la mesure des impressions, à l’aide de blocs-notes interactifs.

Étape 4
Une application de streaming Spark s’exécute sur un cluster Amazon EMR. Cette application ingère en permanence des données brutes sur les événements d’enchères ou d’impressions à partir de Kinesis Data Streams. L’application transforme les données. Elle stocke ensuite les données transformées dans un lac de données Amazon Simple Storage Service (Amazon S3).

Ce processus permet de générer des rapports opérationnels en temps quasi réel. Vous pouvez choisir des clusters Amazon EMR provisionnés pour bénéficier de la plus grande flexibilité en matière d’optimisation des coûts ou des clusters Amazon EMR sans serveur pour simplifier le déploiement et la gestion des clusters.

Étape 5
Amazon S3 stocke les données dans des dossiers partitionnés. Les données peuvent être compressées et présentées sous forme de colonne ou dans d’autres formats de table ouverts tels qu’Apache Iceberg.

Étape 6
Toutes les métadonnées des bases de données et des tables sont enregistrées dans un Catalogue de données AWS Glue, de sorte que les données peuvent être interrogées par plusieurs services AWS tels qu’Amazon Athena ou Amazon SageMaker.

Étape 7
(Facultatif) Les administrateurs des lacs de données peuvent enregistrer le catalogue de données auprès d’AWS Lake Formation afin de fournir des contrôles d’accès plus précis et de centraliser la gestion des utilisateurs.

Étape 8
Les utilisateurs peuvent exécuter des requêtes SQL sur des données de parcours ou d’impressions sélectionnées dans Amazon S3 en temps quasi-réel avec Athena et visualiser des tableaux de bord avec Amazon QuickSight.

Étape 9
Outre le lac de données Amazon S3, les charges de travail Amazon EMR peuvent écrire des données dans des bases de données NoSQL comme Amazon DynamoDB ou des bases de données en mémoire comme Aerospike. Ce système prend en charge les charges de travail de lecture nécessitant des performances rapides à grande échelle, comme le filtrage des offres ou les rapports opérationnels.

Démarrer

Déployer ces conseils

Exemple de code

Utilisez un exemple de code pour déployer ces conseils dans votre compte AWS

Piliers Well-Architected

Le cadre AWS Well-Architected vous permet de comprendre les avantages et les inconvénients des décisions que vous prenez lors de la création de systèmes dans le cloud. Les six piliers du cadre vous permettent d'apprendre les bonnes pratiques architecturales pour concevoir et exploiter des systèmes fiables, sécurisés, efficaces, rentables et durables. Grâce à l'outil AWS Well-Architected Tool, disponible gratuitement dans la console de gestion AWS, vous pouvez examiner vos charges de travail par rapport à ces bonnes pratiques en répondant à une série de questions pour chaque pilier.

Le diagramme d'architecture ci-dessus est un exemple de solution créée en tenant compte des bonnes pratiques Well-Architected. Pour être totalement conforme à Well-Architected, vous devez suivre autant de bonnes pratiques Well-Architected que possible.

Excellence opérationnelle

Amazon EMR Studio fournit un environnement de développement intégré (IDE) web entièrement géré avec des bloc-notes Jupyter, permettant aux équipes d’ingénierie des données ou de science des données de développer, de visualiser et de déboguer des applications de streaming Spark de manière interactive sans gérer de serveurs supplémentaires. Les équipes peuvent exploiter de façon autonome des clusters Amazon EMR qui ont été prédéfinis à l’aide de modèles d’infrastructure en tant que code (IaC) dans le catalogue de services. Cela réduit la dépendance vis-à-vis des équipes chargées des opérations cloud, améliore l’agilité du développement et aide les entreprises à suivre les meilleures pratiques en matière de sécurité et de gouvernance avec un minimum de frais généraux.

Lire le livre blanc sur l’excellence opérationnelle
Sécurité

Amazon EMR Studio prend en charge l’authentification et l’autorisation avec AWS Identity and Access Management (IAM), ou AWS Identity Center, éliminant ainsi la nécessité de se connecter via SSH (Secure Shell) directement aux clusters Spark. Lake Formation permet un contrôle d’accès granulaire et centralisé aux données de vos lacs de données, centralise la gestion des accès des utilisateurs et renforce la sécurité et la gouvernance de vos pipelines de données.

Lire le livre blanc sur la sécurité
Fiabilité

Kinesis Data Streams et Amazon EMR fournissent des fonctionnalités de dimensionnement automatique pour répondre à la demande de débit de votre flux de travail de streaming de données en temps réel. Amazon EMR utilise le cadre Apache Spark, qui distribue et réessaie automatiquement les tâches en cas de défaillance de l’application ou du réseau. Kinesis Data Streams met en plus à l’échelle automatiquement les données de manière synchrone sur trois zones disponibilité, assurant ainsi une haute disponibilité et une durabilité des données.

Lire le livre blanc sur la fiabilité
Efficacité des performances

Kinesis Data Streams met à l’échelle automatiquement sa capacité en fonction de la variation du trafic de données, ce qui permet à votre flux de traitement en temps réel de répondre aux demandes de débit. Amazon EMR fournit de multiples fonctionnalités d’optimisation des performances pour Spark, permettant aux utilisateurs de fonctionner 3,5 fois plus vite sans aucune modification de leurs applications. En outre, Athena traite automatiquement les requêtes en parallèle et provisionne les ressources nécessaires. Les données peuvent également être stockées dans des clés de partition Amazon S3 et dans des formats de colonne pour améliorer les performances des requêtes.

Lire le livre blanc sur l’efficacité des performances
Optimisation des coûts

Ce guide fournit un exemple de modèle de cluster Amazon EMR qui utilise des flottes d’instances dotés de la capacité d’instance Spot Amazon EC2 et spécifie les types d’instances Amazon EC2 Graviton3. Cela peut permettre de réaliser des économies allant jusqu’à 20 % par rapport à des instances Amazon Elastic Compute Cloud (Amazon EC2) comparables basées sur x86. En outre, l’utilisation de délais d’inactivité et de niveaux de stockage Amazon S3 permet une meilleure utilisation des ressources de calcul et de stockage avec des coûts optimisés.

Lire le livre blanc sur l’optimisation des coûts
Développement durable

Les types d’instances Amazon EC2 Graviton3 consomment jusqu’à 60 % d’énergie en moins pour des performances identiques à celles des instances Amazon EC2 comparables, ce qui contribue à réduire l’empreinte carbone. L’utilisation des instances Spot Amazon EC2 et des paramètres de délai d’inactivité d’Amazon EMR permet de garantir une meilleure utilisation des ressources et minimise l’impact environnemental de la charge de travail.

Lire le livre blanc sur le développement durable

Contenu connexe

[Type de contenu]

[Titre]

Cet [article de blog/ebook/conseil/exemple de code] montre comment [insérer une courte description].

Avis de non-responsabilité

Les exemples de code, les bibliothèques de logiciels, les outils de ligne de commande, les preuves de concept, les modèles ou toute autre technologie connexe (y compris tout ce qui précède qui est fourni par notre personnel) vous sont fournis en tant que contenu AWS en vertu du contrat client AWS ou de l'accord écrit pertinent entre vous et AWS (selon le cas). Vous ne devez pas utiliser ce contenu AWS dans vos comptes de production, ni sur des données de production ou autres données critiques. Vous êtes responsable des tests, de la sécurisation et de l'optimisation du contenu AWS, tel que les exemples de code, comme il convient pour une utilisation en production, en fonction de vos pratiques et normes de contrôle de qualité spécifiques. Le déploiement de contenu AWS peut entraîner des frais AWS pour la création ou l'utilisation de ressources payantes AWS, telles que l'exécution d'instances Amazon EC2 ou l'utilisation du stockage Amazon S3.

Les références à des services ou organisations tiers dans ce guide n'impliquent pas une approbation, un parrainage ou une affiliation entre Amazon ou AWS et le tiers. Les conseils fournis par AWS constituent un point de départ technique, et vous pouvez personnaliser votre intégration avec des services tiers lorsque vous déployez l'architecture.

Cette page vous a-t-elle été utile ?

Commentaires