À quoi sert l'implémentation des solutions AWS ?

La solution d'analyse tertiaire génomique et de lacs de données avec AWS Glue et Amazon Athena crée un environnement évolutif au sein d'AWS afin de préparer les données génomiques pour une analyse à grande échelle et d'effectuer des requêtes interactives dans un lac de données génomiques. Cette solution peut aider les architectes d'infrastructure informatique, les administrateurs, les scientifiques des données, les ingénieurs logiciels et les professionnels DevOps à développer, empaqueter et déployer des bibliothèques utilisées pour la conversion de données génomiques ; à fournir des pipelines d'ingestion de données pour la préparation et le catalogage des données génomiques et à exécuter les requêtes interactives dans un lac de données génomiques.

Les données de sortie d'une analyse secondaire peuvent être importantes et complexes. Par exemple, il est possible de convertir les Variant Call Files (VCF) aux formats de fichiers optimisés de gros volume (comme Parquet) et de les intégrer à des jeux de données génomiques existants. Un catalogue de données doit être mis à jour selon le schéma et la version adéquats pour permettre aux utilisateurs de trouver les données dont ils ont besoin et d'opérer au sein d'un modèle de données défini sémantiquement cohérent. Les jeux de données d'annotation et les données phénotypiques doivent être traités, catalogués et ingérés dans un lac de données existant pour créer une cohorte, regrouper les données et enrichir le jeu de résultats avec les données issues de sources d'annotation. La gouvernance des données et les contrôles d'accès affinés aux données sont nécessaires pour sécuriser les données tout en offrant un accès suffisant à ces dernières pour la recherche et les communautés informatiques. La solution d'analyse tertiaire génomique et de lacs de données avec AWS Glue et Amazon Athena simplifie ce processus.

Cette solution fournit un lac de données génomiques et configure des pipelines d'ingestion génomiques et d'annotations avec des ETL AWS Glue et des robots pour remplir un lac de données génomiques dans Amazon Simple Storage Service (Amazon S3). La solution montre comment utiliser Amazon Athena pour l'analyse et l'interprétation des données en complément d'un lac de données génomiques et crée un rapport de réponse aux médications depuis un bloc-notes Jupyter.

Présentation de l'implémentation des solutions AWS

Le diagramme ci-dessous présente l'architecture que vous pouvez déployer automatiquement à l'aide du guide d'implémentation de la solution et du modèle AWS CloudFormation fourni.

Analyse tertiaire génomique et lacs de données en utilisant AWS Glue et Amazon Athena | Diagramme de l'architecture
 Cliquer pour agrandir

Architecture de la solution d'analyse tertiaire génomique et de lacs de données avec AWS Glue et Amazon Athena

Le modèle AWS CloudFormation crée quatre piles CloudFormation dans votre compte AWS, y compris une pile setup (configuration) pour installer la solution. Les autres piles comprennent une pile de zone d'atterrissage (zone) contenant les ressources et les artefacts courants de la solution, une pile de pipelines de déploiement (pipe, canal) qui définit le pipeline CI/CD de la solution et une pile de code base (code) qui fournit les scripts, tâches et robots ETL, un catalogue de données et des ressources de bloc-notes.

La pile setup de la solution crée un projet AWS CodeBuild contenant le script setup.sh. Ce script crée les piles restantes CloudFormation et fournit le code source du référentiel pipe et du référentiel code AWS CodeCommit.

La pile de zone d'atterrissage (zone) crée le référentiel pipe CodeCommit. Une fois la configuration de la pile de la zone d'atterrissage (zone) terminée, le script setup.sh transmet le code source au référentiel pipe CodeCommit.

La pile du pipeline de déploiement (pipe) crée le référentiel code CodeCommit, un événement Amazon CloudWatch et le pipeline code CodePipeline. Une fois le déploiement de la pile de la zone d'atterrissage (zone) terminé, le script setup.sh transmet le code source au référentiel code CodeCommit.

Le pipeline (code) CodePipeline déploie la pile CloudFormation (code) du code base. Une fois la configuration des pipelines AWS CodePipeline terminée, les ressources déployées dans votre compte comprennent les compartiments Amazon Simple Storage Service (Amazon S3) pour le stockage de journaux d'accès d'objets, d'artefacts de création et de données dans votre lac de données , les référentiels CodeCommit pour le code source ; un projet AWS CodeBuild pour les artefacts de code de création (par exemple, les bibliothèques de tiers pour le traitement des données) ; un pipeline AWS CodePipeline pour l'automatisation des créations et du développement des ressources (par exemple, les tâches AWS Glue, les robots et un catalogue de données) ; et une instance de bloc-notes Jupyter Amazon SageMaker. 

Analyse tertiaire génomique et lacs de données avec AWS Glue et Amazon Athena

Version 1.0.1
Date de la dernière mise à jour : 09/2020
Auteur : AWS

Temps de déploiement estimé : 30 min

Utilisez le bouton ci-dessous pour vous abonner aux mises à jour de la solution.

Remarque : pour vous abonner aux mises à jour RSS, vous devez activer un plug-in RSS pour le navigateur que vous utilisez.  

Fonctionnalités

Obtenez un environnement évolutif dans AWS pour exécuter des projets d'analyse et de recherche en génomique

Créez un environnement évolutif au sein d'AWS afin de préparer les données génomiques pour une analyse à grande échelle et d'effectuer des requêtes interactives dans un lac de données génomiques.

Exploitez les bonnes pratiques de l'infrastructure en tant que code

Faites évoluer rapidement la solution en utilisant les principes et les bonnes pratiques de l'infrastructure en tant que code (IaC).

Exploitez l'intégration et la diffusion continues (CI/CD)

Utilisez les référentiels de code source AWS CodeCommit et AWS CodePipeline pour créer et déployer des mises à jour des tâches de préparation des données et des robots, des configurations du lac de données et des blocs-notes Jupyter.

Modifiez vos pipelines de préparation des données génomiques et vos blocs-notes Jupyter pour l'analyse

Modifiez la solution pour qu'elle s'adapte à vos besoins spécifiques, par exemple en ajoutant de nouvelles tâches AWS Glue et de nouveaux robots, ainsi que de nouveaux blocs-notes Jupyter pour effectuer une analyse des données. Chaque modification sera suivie par le pipeline CI/CD, facilitant la gestion du contrôle des modifications, les restaurations et l'audit.
Icône Créer
Déployer vous-même votre solution

Parcourez notre bibliothèque des implémentations des solutions AWS pour obtenir des réponses aux problèmes d'architecture courants.

En savoir plus 
Rechercher un partenaire APN
Rechercher un partenaire APN

Trouvez des partenaires consultants et technologiques certifiés AWS pour vous aider à commencer.

En savoir plus 
Icône Explorer
Explorer les offres de conseil pour les solutions AWS

Parcourez notre portefeuille d'offres de conseil pour obtenir une aide approuvée AWS au déploiement de solutions.

En savoir plus