déploiement de référence

Fondation Data Lake sur AWS

Avec des services AWS, notamment Amazon Redshift, Amazon Kinesis, AWS Glue et Amazon SageMaker

Cette solution déploie une fondation de lac de données qui intègre des services Amazon Web Services (AWS) tels qu'Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Kinesis, Amazon Athena, AWS Glue, Amazon Elasticsearch Service (Amazon ES), Amazon SageMaker et Amazon QuickSight.

La fondation de lac de données utilise ces services AWS pour fournir des fonctionnalités telles que la soumission de données, le traitement d'acquisition, la gestion de jeu de données, la transformation et l'analyse de données, la création et le déploiement d'outils de machine learning, la recherche, la publication et la visualisation. Une fois que cette fondation est en place, vous pouvez choisir d'augmenter le lac de données avec des outils ISV et SaaS.

Cette architecture de référence est automatisée par les modèles AWS CloudFormation que vous pouvez personnaliser pour répondre à vos besoins.

Cette solution a été développée par AWS.

  •  Votre projet de création
  • Cette solution met en place les éléments suivants :

    • Un cloud privé virtuel (VPC) qui couvre deux zones de disponibilité et comprend deux sous-réseaux publics et deux sous-réseaux privés.*
    • une passerelle Internet pour permettre l'accès à Internet ;*
    • Dans les sous-réseaux publics, des passerelles NAT gérées pour autoriser l'accès Internet sortant pour les ressources des sous-réseaux privés.*
    • Dans les sous-réseaux publics, les hôtes bastions Linux dans un groupe Auto Scaling pour permettre un accès Secure Shell (SSH) entrant aux instances EC2 des sous-réseaux publics et privés.*
    • Les rôles AWS Identity and Access Management (IAM) pour fournir les autorisations d'accès aux ressources AWS ; par exemple, pour permettre à Amazon Redshift et à Amazon Athena de lire et d'écrire des ensembles de données organisés.
    • Dans les sous-réseaux privés, Amazon Redshift pour l'agrégation, l'analyse, la transformation et la création de données, ainsi que pour la création de nouveaux ensembles de données organisés et publiés.
    • Une instance Amazon SageMaker à laquelle vous pouvez accéder à l'aide de l'authentification AWS.
    • Intégration avec d'autres services Amazon tels qu'Amazon S3, Amazon Athena, AWS Glue, AWS Lambda, Amazon ES with Kibana, Amazon Kinesis, et Amazon QuickSight.

    * Le modèle qui déploie la solution dans un VPC existant ignore les tâches marquées d'un astérisque et vous demande d'indiquer la configuration de votre VPC existant.

  •  Procédure de déploiement
  • Pour déployer cette solution, suivez les instructions du guide de déploiement, qui comprend les étapes suivantes.

    1. Connectez-vous à votre compte AWS. Si vous n'avez pas de compte AWS, inscrivez-vous à l'adresse https://aws.amazon.com.
    2. Lancez la solution. Le déploiement de la pile prend environ 50 minutes. Avant la création de la pile, choisissez la région AWS dans la barre d'outils supérieure. Choisissez l'une des options suivantes :
    3. Testez votre déploiement en vérifiant les ressources créées par la solution.

    La solution comprend des paramètres que vous pouvez personnaliser. Par exemple, vous pouvez configurer votre réseau ou personnaliser les réglages Amazon Redshift, Kinesis et Elasticsearch.  

    Amazon peut être amené à partager les informations relatives au déploiement des utilisateurs avec le partenaire AWS qui a élaboré cette solution en collaboration avec AWS.  

  •  Coût et licences
  • Vous êtes responsable du paiement du coût des services AWS et des licences tierces utilisées lors de l'exécution de cette solution. Aucun frais supplémentaire ne vous sera facturé pour l'utilisation de la solution.

    Cette solution propose des paramètres de configuration que vous pouvez personnaliser. Certains de ces paramètres, tel que le type d'instance, affectent le coût du déploiement. Reportez-vous aux pages de tarification pour les estimations de coûts de chaque service AWS que vous utilisez. Les prix sont susceptibles d'être modifiés.

    Astuce : après avoir déployé une solution, créez des Rapports de coût et d'utilisation AWS afin de suivre les coûts afférents à la solution. Ces rapports fournissent des métriques de facturation à un compartiment Amazon Simple Storage Service (Amazon S3) dans votre compte. Ils fournissent des estimations de coûts basées sur l'utilisation mensuelle et agrègent les données à la fin du mois. Pour en savoir plus, consultez la section Qu'est-ce que les rapports de coût et d'utilisation AWS ?
  •  Ressources
  • Cette solution est liée à une solution présentée dans Solution Space, qui comprend une présentation, des offres de consultation optionnelles conçues par les partenaires AWS disposant de compétences, ainsi qu'un co-investissement dans des projets de preuve de concept (PoC). Pour plus d'informations, consultez Solution Space.