Ce guide explique comment configurer un environnement d’analytique des données en libre-service simple à lancer et à consulter pour les ingénieurs et les scientifiques des données. L’environnement de développement intégré (IDE) est basé sur les blocs-notes Jupyter, fournissant une interface interactive facilitant l’exploration des données, et inclut tous les outils nécessaires pour déboguer, créer et planifier des pipelines de données en temps quasi réel. L’environnement favorise une collaboration d’équipe sécurisée avec isolation de la charge de travail et permet aux administrateurs de mettre en service, de mettre à l’échelle et de d’annuler la mise en service eux-mêmes des ressources à partir d’une interface unique sans exposer la complexité de l’infrastructure sous-jacente ni compromettre la sécurité, la gouvernance et les coûts. Les administrateurs peuvent gérer indépendamment les configurations des clusters et optimiser en permanence les coûts, la sécurité, la fiabilité et les performances.

Veuillez noter : [Clause de non-responsabilité]

Diagramme d’architecture

[Description du schéma d’architecture]

Télécharger le diagramme d’architecture au format PDF 

Piliers Well-Architected

Le cadre AWS Well-Architected vous permet de comprendre les avantages et les inconvénients des décisions que vous prenez lors de la création de systèmes dans le cloud. Les six piliers du cadre vous permettent d'apprendre les bonnes pratiques architecturales pour concevoir et exploiter des systèmes fiables, sécurisés, efficaces, rentables et durables. Grâce à l'outil AWS Well-Architected Tool, disponible gratuitement dans la console de gestion AWS, vous pouvez examiner vos charges de travail par rapport à ces bonnes pratiques en répondant à une série de questions pour chaque pilier.

Le diagramme d'architecture ci-dessus est un exemple de solution créée en tenant compte des bonnes pratiques Well-Architected. Pour être totalement conforme à Well-Architected, vous devez suivre autant de bonnes pratiques Well-Architected que possible.

  • Amazon EMR Studio fournit un environnement de développement intégré (IDE) web entièrement géré avec des bloc-notes Jupyter, permettant aux équipes d’ingénierie des données ou de science des données de développer, de visualiser et de déboguer des applications de streaming Spark de manière interactive sans gérer de serveurs supplémentaires. Les équipes peuvent exploiter de façon autonome des clusters Amazon EMR qui ont été prédéfinis à l’aide de modèles d’infrastructure en tant que code (IaC) dans le catalogue de services. Cela réduit la dépendance vis-à-vis des équipes chargées des opérations cloud, améliore l’agilité du développement et aide les entreprises à suivre les meilleures pratiques en matière de sécurité et de gouvernance avec un minimum de frais généraux.

    Lire le livre blanc sur l’excellence opérationnelle 
  • Amazon EMR Studio prend en charge l’authentification et l’autorisation avec AWS Identity and Access Management (IAM), ou AWS Identity Center, éliminant ainsi la nécessité de se connecter via SSH (Secure Shell) directement aux clusters Spark. Lake Formation permet un contrôle d’accès granulaire et centralisé aux données de vos lacs de données, centralise la gestion des accès des utilisateurs et renforce la sécurité et la gouvernance de vos pipelines de données.

    Lire le livre blanc sur la sécurité 
  • Kinesis Data Streams et Amazon EMR fournissent des fonctionnalités de dimensionnement automatique pour répondre à la demande de débit de votre flux de travail de streaming de données en temps réel. Amazon EMR utilise le cadre Apache Spark, qui distribue et réessaie automatiquement les tâches en cas de défaillance de l’application ou du réseau. Kinesis Data Streams met en plus à l’échelle automatiquement les données de manière synchrone sur trois zones disponibilité, assurant ainsi une haute disponibilité et une durabilité des données.

    Lire le livre blanc sur la fiabilité 
  • Kinesis Data Streams met à l’échelle automatiquement sa capacité en fonction de la variation du trafic de données, ce qui permet à votre flux de traitement en temps réel de répondre aux demandes de débit. Amazon EMR fournit de multiples fonctionnalités d’optimisation des performances pour Spark, permettant aux utilisateurs de fonctionner 3,5 fois plus vite sans aucune modification de leurs applications. En outre, Athena traite automatiquement les requêtes en parallèle et provisionne les ressources nécessaires. Les données peuvent également être stockées dans des clés de partition Amazon S3 et dans des formats de colonne pour améliorer les performances des requêtes.

    Lire le livre blanc sur l’efficacité des performances 
  • Ce guide fournit un exemple de modèle de cluster Amazon EMR qui utilise des flottes d’instances dotés de la capacité d’instance Spot Amazon EC2 et spécifie les types d’instances Amazon EC2 Graviton3. Cela peut permettre de réaliser des économies allant jusqu’à 20 % par rapport à des instances Amazon Elastic Compute Cloud (Amazon EC2) comparables basées sur x86. En outre, l’utilisation de délais d’inactivité et de niveaux de stockage Amazon S3 permet une meilleure utilisation des ressources de calcul et de stockage avec des coûts optimisés.

    Lire le livre blanc sur l’optimisation des coûts 
  • Les types d’instances Amazon EC2 Graviton3 consomment jusqu’à 60 % d’énergie en moins pour des performances identiques à celles des instances Amazon EC2 comparables, ce qui contribue à réduire l’empreinte carbone. L’utilisation des instances Spot Amazon EC2 et des paramètres de délai d’inactivité d’Amazon EMR permet de garantir une meilleure utilisation des ressources et minimise l’impact environnemental de la charge de travail.

    Lire le livre blanc sur le développement durable 
[Type de contenu]

[Titre]

Cet [article de blog/ebook/conseil/exemple de code] montre comment [insérer une courte description].

Avis de non-responsabilité

Les exemples de code, les bibliothèques de logiciels, les outils de ligne de commande, les preuves de concept, les modèles ou toute autre technologie connexe (y compris tout ce qui précède qui est fourni par notre personnel) vous sont fournis en tant que contenu AWS en vertu du contrat client AWS ou de l'accord écrit pertinent entre vous et AWS (selon le cas). Vous ne devez pas utiliser ce contenu AWS dans vos comptes de production, ni sur des données de production ou autres données critiques. Vous êtes responsable des tests, de la sécurisation et de l'optimisation du contenu AWS, tel que les exemples de code, comme il convient pour une utilisation en production, en fonction de vos pratiques et normes de contrôle de qualité spécifiques. Le déploiement de contenu AWS peut entraîner des frais AWS pour la création ou l'utilisation de ressources payantes AWS, telles que l'exécution d'instances Amazon EC2 ou l'utilisation du stockage Amazon S3.

Les références à des services ou organisations tiers dans ce guide n'impliquent pas une approbation, un parrainage ou une affiliation entre Amazon ou AWS et le tiers. Les conseils fournis par AWS constituent un point de départ technique, et vous pouvez personnaliser votre intégration avec des services tiers lorsque vous déployez l'architecture.

Cette page vous a-t-elle été utile ?