Déploiement de référence

Science des données prédictive avec Amazon SageMaker et un Data Lake sur AWS

Conservez et transformez des données pour concevoir des applications prédictives et prescriptives

Ce Quick Start élabore un environnement Data Lake pour la création, l’entraînement et le déploiement de modèles de Machine Learning avec Amazon SageMaker sur le Cloud Amazon Web Services (AWS). Le déploiement prend environ 10 à 15 minutes et utilise des services AWS tels qu’Amazon Simple Storage Service (Amazon S3), Amazon API Gateway, AWS Lambda, Amazon Kinesis Data Streams et Amazon Kinesis Data Firehose.

Amazon SageMaker est une plate-forme gérée permettant aux développeurs et aux informaticiens de créer, de former et de déployer des modèles ML rapidement et facilement.

Ce Quick Start est destiné aux utilisateurs qui souhaitent exploiter toute la puissance de leurs données pour créer des modèles prédictifs et normatifs à valeur commerciale, sans avoir à configurer des clusters matériel ML complexes. Il permet une science de données de bout en bout, en commençant par les données brutes et en terminant par une API REST de prédiction dans un système de production.

Quick Start fournit également un scénario de démonstration développé par Pariveda Solutions. Cette démonstration montre comment stocker les données brutes dans Amazon S3, les transformer pour qu’elles soient consommées par Amazon SageMaker, comment utiliser Amazon SageMaker pour créer un modèle ML et comment héberger le modèle dans une API de prédiction pour la tarification Spot Amazon Elastic Compute Cloud (Amazon EC2).

pariveda-data-lake-sagemaker-LP-logo

Ce Quick Start a été développé par Pariveda Solutions, Inc., en collaboration avec AWS. Pariveda est un partenaire APN.

Découvrez toutes les solutions AWS »
  •  Votre projet de création
  •  Comment déployer
  •  Coût et licences
  •  Ressources
  •  Votre projet de création
  • L’architecture Quick Start crée les ressources suivantes :

    • Un data lake structuré dans Amazon S3 pour contenir les données brutes, modélisées, améliorées et transformées.
    • Un compartiment de test pour les données de fonctionnalités conçues et transformées qui seront importées dans Amazon SageMaker.
    • Code de transformation de données hébergé sur AWS Lambda pour préparer les données brutes en vue de leur utilisation et de la formation de modèles ML, ainsi que pour transformer les entrées et les sorties de données.
    • Automatisation d'Amazon SageMaker via les fonctions Lambda pour créer, gérer et créer des points de terminaison REST pour les nouveaux modèles, en fonction d'une planification ou déclenchées par des modifications de données dans le data lake.
    • Les points de terminaison Amazon API Gateway hébergent des API publiques afin de permettre aux développeurs d'obtenir des données historiques ou des prévisions pour leurs applications.
    • Amazon Kinesis Data Streams pour permettre le traitement en temps réel de nouvelles données à travers les étapes d’ingestion, de modélisation, d’amélioration et de transformation.
    • Amazon Kinesis Data Firehose pour transmettre les résultats des phases de modélisation et d'amélioration à Amazon S3 pour un stockage durable.
    • Un tableau de bord Amazon CloudWatch pour surveiller les composants de transformation de données, de formation de modèle et d'hébergement pour le point de terminaison de la prédiction.
    • Un serveur bloc-notes AWS SageMaker pour permettre l'exploration de données à l'aide d'un bloc-notes Jupyter.
    • AWS Identity and Access Management (IAM) pour appliquer le principe de moindre privilège sur chaque composant de traitement. Le rôle et la stratégie IAM limitent l'accès aux seules ressources nécessaires.
    • Un scénario de démonstration qui crée et met à jour un modèle prédictif pour la tarification quotidienne de Amazon Elastic Compute Cloud (Amazon EC2) Spot.
  •  Comment déployer
  • Vous pouvez créer votre environnement de science de données prédictives avec Amazon SageMaker et un data lake sur AWS en environ 10 à 15 minutes en suivant quelques étapes simples :

    1. Si vous n'avez pas encore de compte AWS, inscrivez-vous à l'adresse https://aws.amazon.com.
    2. Lancez le Quick Start.
    3. (Optionnel) Testez le déploiement avec le scénario de démonstration fourni.
    4. (Optionnel) Formez un modèle ML par vous-même.
  •  Coût et licences
  • Vous devez assumer les coûts liés aux services AWS utilisés pendant l'exécution du déploiement de référence de ce Quick Start. L'utilisation du Quick Start n'entraîne aucun coût supplémentaire.

    Le modèle AWS CloudFormation pour ce Quick Start inclut des paramètres de configuration que vous pouvez personnaliser. Certains de ces paramètres, comme le type d'instance, affecteront le coût du déploiement. Pour obtenir des estimations des coûts, consultez la page de tarification de chaque service AWS que vous comptez utiliser. Les prix sont susceptibles d'être modifiés.

    Étant donné que ce Quick Start utilise des services AWS natifs, aucune licence supplémentaire n'est requise.

  •  Ressources
  • Ce déploiement de référence Quick Start est lié à une solution présentée dans Solution Space, qui comprend une présentation de la solution, des offres de consultation optionnelles conçues par les partenaires du programme de compétence AWS, ainsi qu'un co-investissement dans des projets de faisabilité. Pour en savoir plus sur ces ressources, consultez Solution Space.