déploiement de référence

Databricks sur AWS

Espace de travail collaboratif pour la science des données, le machine learning et l'analytique

Cette Partner Solution est destinée aux architectes d'infrastructure informatique, aux administrateurs et aux professionnels DevOps qui veulent utiliser l'API Databricks pour créer des espaces de travail Databricks dans le cloud Amazon Web Services (AWS). Cette Partner Solution crée un espace de travail dans votre compte AWS et configure l'environnement pour déployer d'autres espaces de travail.

Databricks est une plateforme d'analytique des données destinée à l'ingénierie des données, au machine learning et à la science des données collaborative. Un espace de travail Databricks (français non garanti) est un environnement SaaS (Software-as-a-Service) permettant d'accéder à toutes les ressources Databricks. L'espace de travail organise les objets (par exemple, les blocs-notes, les bibliothèques et les expériences) dans des dossiers et fournit un accès aux données et aux ressources de calcul, telles que les clusters et les tâches.

Important : ce déploiement AWS Partner Solution nécessite que votre compte Databricks soit la version E2 de la plateforme (français non garanti). Pour plus d'informations, contactez Databricks (français non garanti).
Voir le contenu connexe

Cette Partner Solution a été créée par Databricks en collaboration avec AWS. Databricks est un partenaire AWS.

  •  Votre projet de création
  • La Partner Solution configure les éléments suivants, qui constituent l'espace de travail Databricks :

    • Une architecture à haute disponibilité couvrant au moins trois zones de disponibilité.
    • Un Virtual Private Cloud (VPC) géré par le client ou par Databricks dans le compte AWS du client. Le VPC est configuré avec des sous-réseaux privés et un sous-réseau public, conformément aux bonnes pratiques AWS, de sorte que vous disposiez de votre propre réseau virtuel sur AWS.
    • Dans les sous-réseaux privés :
      • Des clusters Databricks d'instances Amazon Elastic Compute Cloud (Amazon EC2).
      • Un ou plusieurs groupes de sécurité pour permettre une connexion sécurisée au cluster.
    • Dans le sous-réseau public :
      • Une passerelle NAT (Network address translation) pour autoriser un accès Internet sortant.
    • Amazon CloudWatch pour les journaux d'instances de l'instance WorkSpace Databricks.
    • (Facultatif) Une clé AWS Key Management Service (AWS KMS) gérée par le client pour chiffrer les notebooks.
    • Un compartiment Amazon Simple Storage Service (Amazon S3) pour le stockage d'objets tels que des journaux de cluster, des révisions de notebook et des résultats de tâche.
    • AWS Security Token Service (AWS STS) pour vous permettre de demander des autorisations temporaires à privilèges limités pour que les utilisateurs puissent s'authentifier.
    • Un point de terminaison d'un VPC pour accéder à des journaux et des artefacts S3.
    • Un rôle AWS Identity and Access Management (IAM) sur plusieurs comptes pour permettre à Databricks de déployer des clusters dans le VPC pour le nouvel espace de travail. En fonction de l'option de déploiement choisie, vous pouvez soit créer ce rôle IAM pendant le déploiement, soit utiliser un rôle IAM existant.
  •  Procédure de déploiement
  • Pour déployer Databricks, suivez les instructions du guide de déploiement. Databricks a besoin d'un accès à un rôle IAM sur plusieurs comptes dans votre compte AWS pour lancer des clusters dans le VPC du nouvel espace de travail. Le processus de déploiement, qui comprend les étapes suivantes, dure environ 15 minutes :

    1. Si vous n'avez pas encore de compte AWS, créez-en sur https://aws.amazon.com et connectez-vous à votre compte.
    2. Lancez la solution partenaire en choisissant parmi les options suivantes :

    Amazon peut être amené à partager les informations relatives au déploiement des utilisateurs avec le partenaire AWS qui a élaboré cette solution en collaboration avec AWS.  

  •  Coût et licences
  • Vous êtes responsable du paiement du coût des services AWS utilisés lors de l'exécution de cette Partner Solution. L'utilisation de cette Partner Solution n'entraîne aucun coût supplémentaire.

    Le modèle AWS CloudFormation pour cette Partner Solution inclut des paramètres de configuration personnalisables. Certains des paramètres, notamment le type d'instance, affectent le coût du déploiement. Reportez-vous aux pages de tarification pour les estimations de coûts de chaque service AWS que vous utilisez. Les prix sont susceptibles d'être modifiés.

    Conseil : après avoir déployé la Partner Solution, activez le rapport AWS Cost and Usage Report pour transmettre les métriques de facturation à un compartiment Amazon S3 dans votre compte. Il fournit des estimations de coûts basées sur l'utilisation mensuelle et agrège les données à la fin du mois. Pour en savoir plus, consultez la section  Présentation des rapports AWS Cost and Usage Reports (français non garanti)

    Pour les estimations de coûts Databricks, reportez-vous à la page Tarifs de Databricks (français non garanti) relative aux fonctions et niveaux du produit.

Témoignage de réussite des partenaires
Databricks simplifie le déploiement grâce à AWS Partner Solution

Lorsque la société Databricks a été confronté au défi de réduire les étapes de configuration complexes et le temps de déploiement des espaces de travail Databricks dans le cloud AWS, elle a travaillé avec l'équipe d'intégration et d'automatisation d'AWS pour concevoir une AWS Partner Solution, une architecture de référence automatisée construite sur les modèles AWS CloudFormation avec les bonnes pratiques intégrées. 

Lire l'intégralité de la référence partenaire
Retour en haut de la page