Analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker

L'analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker fournit une référence pouvant être utilisée pour créer des modèles de machine learning sur des jeux de données génomiques avec AWS Managed Services. Nous définissons l'analyse tertiaire comme étant l'interprétation des variants génomiques et l'affectation à ces derniers de significations. Cette solution fournit une vaste plateforme pour le machine learning en génomique dans AWS, en utilisant la classification des variants comme un exemple de problème scientifiquement pertinent qui peut être résolu avec cette plateforme. Dans l'exemple, nous résolvons le défi spécifique des définitions cliniques concurrentes lors de l'examen de variants génomiques. Notre exemple est basé sur le défi Kaggle ci-dessous. Nous créons un modèle pour faire des prévisions si un variant annoté dans ClinVar comporte une classification conflictuelle ou non. Utiliser un modèle qui peut faire des prévisions sur l'existence d'une classification conflictuelle d'un variant permet d'économiser le temps, pourtant précieux, que les chercheurs doivent consacrer à la recherche de tels conflits.

Cette solution explique comment 1) automatiser la préparation d'un ensemble de données d'entraînement pour le machine learning génomique, 2) développer des pipelines pour l'entraînement et le déploiement de modèles de machine learning génomique et 3) générer des prévisions et évaluer les performances des modèles à l'aide de données de test. Ces étapes peuvent être répétées ou modifiées par les utilisateurs en fonction de leurs cas d'utilisation spécifiques.

Présentation

Le diagramme ci-dessous présente l'architecture que vous pouvez créer à l'aide de l'exemple de code sur GitHub.

Architecture de l'analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker

La pile setup de la solution crée un projet AWS CodeBuild contenant le script setup.sh. Ce script crée les piles restantes CloudFormation et fournit le code source du référentiel pipe et du référentiel code AWS CodeCommit.

La pile de zone de destination (zone) crée le référentiel pipe de CodeCommit. Une fois la configuration de la pile de zone de destination (zone) terminée, le script setup.sh transmet le code source au référentiel pipe de CodeCommit.

Le pipeline code d'AWS CodePipeline déploie la pile CloudFormation de la base du code (code). Les ressources déployées dans votre compte comprennent les compartiments Amazon Simple Storage Service (Amazon S3) pour le stockage de journaux d'accès d'objets, des artefacts de création et des données ; les référentiels CodeCommit pour le code source ; un projet AWS CodeBuild pour la création des artefacts de code (par exemple, les bibliothèques de tiers utilisées pour le traitement des données) ; un pipeline CodePipeline pour l'automatisation des créations et du déploiement des ressources (par exemple les tâches AWS Glue) ; et une instance de blocs-notes Jupyter Amazon SageMaker. Cet exemple de code inclut les ressources nécessaires pour développer rapidement des modèles de machine learning à l'aide de données génomiques et générer des prévisions.

Analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker

Version 1.0
Dernière mise à jour : 08/2020
Auteur : AWS

Cette implémentation de solutions vous a-t-elle aidé ?
Donner mon avis 

Fonctions

Fournir un environnement évolutif dans AWS pour exécuter des projets d'analyse et de recherche génomiques

Créez un environnement évolutif dans AWS pour créer des modèles de machine learning sur des ensembles de données génomiques avec AWS Managed Services. Cette solution fournit une vaste plateforme pour le machine learning en génomique dans AWS, en utilisant la classification des variants comme un exemple de problème scientifiquement pertinent qui peut être résolu avec cette plateforme.

Tirer parti de l'intégration et de la livraison continues (CI/CD)

Utilisez les référentiels de code source AWS CodeCommit, les projets AWS CodeBuild et AWS CodePipeline pour créer et déployer des pipelines de génération de modèles de machine learning génomique, déployer des blocs-notes Jupyter et créer des tâches Extract-transform-load (ETL) afin de générer de nouveaux ensembles de données d'entraînement.

Tirer parti des bonnes pratiques de l'Infrastructure as Code

Faites évoluer rapidement la solution en utilisant les principes et les bonnes pratiques de l'Infrastructure as Code (IaC).

Modifier vos projets d'analyse et de recherche en génomique

Modifiez la solution pour répondre à vos besoins spécifiques en ajoutant vos jeux de données d'entraînement uniques. Chaque modification est suivie par le pipeline CI/CD, ce qui facilite la gestion du contrôle des modifications, les restaurations et l'audit.
Icône Créer
Déployez vous-même une solution AWS

Parcourez notre bibliothèque de solutions AWS pour obtenir des réponses aux problèmes architecturaux courants.

En savoir plus 
Trouver un partenaire APN
Trouvez une solution Partenaire AWS

Trouvez des partenaires AWS certifiés pour vous aider à démarrer.

En savoir plus 
Icône Explorer
Explorer les conseils

Trouvez des diagrammes d'architecture prescriptifs, des exemple de code et du contenu technique pour les cas d'utilisation courants.

En savoir plus