déploiement de référence

Hail sur AWS

Analyse génomique simplifiée sur Amazon EMR

Ce Quick Start, développé en collaboration avec Goldfinch Bio, Inc. et Privo IT, permet de simplifier la création et la gestion de clusters Hail dans votre compte Amazon Web Services (AWS), ainsi que l'interaction avec ces clusters. Hail est une bibliothèque open source créée pour Apache Spark afin d'offrir une exploration et une analytique de données évolutives, en s'attachant particulièrement à la génomique.

Grâce à Hail, les chercheurs peuvent effectuer une analyse génomique plus rapidement et plus efficacement. Hail simplifie également l'utilisation des techniques de programmation Spark pour traiter les données génétiques (cadres de données génomiques). Il simplifie, en outre, le traitement de plusieurs formats d'entrée en créant une structure de données commune (Hail MatrixTable). 

Ce déploiement utilise Amazon EMR avec Apache Spark pour mettre à l'échelle des jeux de données sur plusieurs instances, comme des processus ad hoc à nœud unique et des études d'association pangénomique (GWAS) à l'échelle de la production.

Logo Privo

Ce Quick Start a été développé par Goldfinch Bio, Inc. et Privo IT en collaboration avec AWS.
Privo est un partenaire AWS.

  •  Ce que vous allez créer
  • Ce Quick Start permet de configurer les éléments suivants :

    • Un portefeuille AWS Service Catalog Hail 0.2 qui vous permet de créer et de gérer vos propres clusters Hail.
    • Quatre pipelines AWS CodeBuild pour prendre en charge différentes combinaisons de versions de Hail 0.2.x, de versions de Variant Effect Predictor (VEP) et de plug-ins LOFTEE (Loss-Of-Function Transcript Effect Estimator).
    • Une instance Amazon SageMaker qui vous permet d'assembler et de démonter des environnements de notebook JupyterLab qui s'intègrent à des clusters Hail (via Sparkmagic et Livy).
    • Un cluster Amazon EMR qui vous permet d'assembler et de démonter des clusters Hail 0.2 suivant les besoins.
    • Un compartiment Amazon Simple Storage Service (Amazon S3) SageMaker pour sauvegarder les environnements de notebook qui ont été lancés.
    • Un compartiment Amazon S3 pour le transit d'artefacts Hail.
    • Un Virtual Private Cloud (VPC) facultatif, configuré avec un sous-réseau privé conformément aux bonnes pratiques AWS, afin de disposer de votre propre réseau virtuel sur AWS.
  •  Procédure de déploiement
  • Pour déployer Hail, suivez les instructions du guide de déploiement. Le processus de déploiement prend environ 10 minutes et comprend les étapes suivantes :

    1. Si vous n'avez pas encore de compte AWS, inscrivez-vous à l'adresse https://aws.amazon.com et connectez-vous à votre compte.
    2. Lancez le Quick Start en choisissant l'une des options suivantes : Les deux options sont basées sur un seul modèle.
    3. Testez le déploiement.

    Amazon peut être amené à partager les informations relatives au déploiement des utilisateurs avec le partenaire AWS qui a élaboré cette solution en collaboration avec AWS.  

  •  Coût et licences
  • Vous devez assumer les coûts liés aux services AWS utilisés pendant l'exécution du déploiement de référence de ce Quick Start. L'utilisation du Quick Start n'entraîne aucun coût supplémentaire. 

    Le modèle AWS CloudFormation pour ce Quick Start inclut des paramètres de configuration que vous pouvez personnaliser. Certains de ces paramètres, comme le type d'instance, affectent le coût du déploiement. Consultez les pages de tarification pour les estimations de coûts de chaque service AWS que vous utilisez. Les prix sont susceptibles d'être modifiés.

    Conseil : Après avoir déployé le Quick Start, nous vous recommandons d'activer le rapport AWS Cost and Usage Report. Ce rapport fournit des métriques de facturation à un compartiment S3 de votre compte. Il fournit des estimations de coûts basées sur l'utilisation mensuelle et finalise les données à la fin du mois. Pour en savoir plus sur le rapport, consultez la documentation AWS.

    Hail 0.2 est distribué sous la Licence MIT.