L'analyse tertiaire génomique et les lacs de données avec AWS Glue et Amazon Athena crée un environnement évolutif dans AWS, afin de préparer les données génomiques pour une analyse à grande échelle et de lancer des requêtes interactives dans un lac de données génomiques. Elle peut aider les architectes d'infrastructure informatique, les administrateurs, les scientifiques des données, les ingénieurs logiciels et les professionnels DevOps à créer, empaqueter et déployer des bibliothèques utilisées pour la conversion de données génomiques ; à allouer des pipelines d'ingestion de données pour la préparation et le catalogage des données génomiques et à exécuter les requêtes interactives dans un lac de données génomiques.
Les données de sortie d'une analyse secondaire peuvent être importantes et complexes. Par exemple, il est possible de convertir les Variant Call Files (VCF) aux formats de fichiers optimisés pour le big data (comme Parquet) et de les intégrer à des jeux de données génomiques existants. Un catalogue de données doit être mis à jour selon le schéma et la version adéquats pour permettre aux utilisateurs de trouver les données dont ils ont besoin et d'opérer au sein d'un modèle de données défini sémantiquement cohérent. Les jeux de données d'annotation et les données phénotypiques doivent être traités, catalogués et ingérés dans un lac de données existant pour créer une cohorte, regrouper les données et enrichir le jeu de résultats avec les données issues de sources d'annotation. La gouvernance des données et les contrôles d'accès affinés aux données sont nécessaires pour sécuriser les données tout en offrant un accès suffisant à ces dernières pour la recherche et les communautés informatiques. L'analyse tertiaire génomique et les lacs de données avec AWS Glue et Amazon Athena simplifie ce processus.
Cette solution fournit un lac de données génomiques et configure des pipelines d'ingestion génomiques et d'annotations avec des ETL AWS Glue et des robots d'analyse pour remplir un lac de données génomiques dans Amazon Simple Storage Service (Amazon S3). Elle montre comment utiliser Amazon Athena pour l'analyse et l'interprétation des données en complément d'un lac de données génomiques et crée un rapport de réponse aux médications depuis un bloc-notes Jupyter.
Présentation
Le diagramme ci-dessous présente l'architecture que vous pouvez créer à l'aide de l'exemple de code sur GitHub.

Architecture de l'analyse tertiaire génomique et des lacs de données avec AWS Glue et Amazon Athena
Le code crée quatre piles CloudFormation dans votre compte AWS, notamment la pile setup pour installer la solution. Les autres piles comprennent une pile de zone de destination (zone) contenant les ressources et les artefacts courants de la solution, une pile de pipelines de déploiement (pipe, canal) qui définit le pipeline CI/CD de la solution et une pile de code base (code) qui fournit les scripts, tâches et robots d'analyse ETL, un catalogue de données et des ressources de bloc-notes.
La pile setup de la solution crée un projet AWS CodeBuild contenant le script setup.sh. Ce script crée les piles restantes CloudFormation et fournit le code source du référentiel pipe et du référentiel code AWS CodeCommit.
La pile de zone de destination (zone) crée le référentiel pipe de CodeCommit. Une fois la configuration de la pile de zone de destination (zone) terminée, le script setup.sh transmet le code source au référentiel pipe de CodeCommit.
La pile du pipeline de déploiement (pipe) crée le référentiel code CodeCommit, un événement Amazon CloudWatch et le pipeline code CodePipeline. Une fois le déploiement de la pile de la zone d'atterrissage (zone) terminé, le script setup.sh transmet le code source au référentiel code CodeCommit.
Le pipeline (code) CodePipeline déploie la pile CloudFormation (code) du code base. Une fois la configuration des pipelines AWS CodePipeline terminée, les ressources déployées dans votre compte comprennent les compartiments Amazon Simple Storage Service (Amazon S3) pour le stockage de journaux d'accès d'objets, d'artefacts de création et de données dans votre lac de données , les référentiels CodeCommit pour le code source ; un projet AWS CodeBuild pour les artefacts de code de création (par exemple, les bibliothèques de tiers pour le traitement des données) ; un pipeline AWS CodePipeline pour l'automatisation des créations et du déploiement des ressources (par exemple, les tâches AWS Glue, les robots d'analyse et un catalogue de données) ; et une instance de bloc-notes Jupyter Amazon SageMaker.
Analyse tertiaire génomique et lacs de données avec AWS Glue et Amazon Athena
Version 1.0.1
Date de la dernière mise à jour : 09/2020
Auteur : AWS
Fonctions
Obtenez un environnement évolutif dans AWS pour exécuter des projets d'analyse et de recherche en génomique
Tirer parti de l'intégration et de la livraison continues (CI/CD)
Tirer parti des bonnes pratiques de l'Infrastructure as Code
Modifiez vos pipelines de préparation des données génomiques et vos blocs-notes Jupyter pour l'analyse

Parcourez notre bibliothèque des implémentations des solutions AWS pour obtenir des réponses aux problèmes d'architecture courants.

Trouvez des partenaires consultants et technologiques certifiés AWS pour vous aider à commencer.

Parcourez notre portefeuille d'offres de conseil pour obtenir une aide approuvée AWS au déploiement de solutions.