L'analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker fournit une référence pouvant être utilisée pour créer des modèles de machine learning sur des jeux de données génomiques avec AWS Managed Services. Nous définissons l'analyse tertiaire comme étant l'interprétation des variants génomiques et l'affectation à ces derniers de significations. Cette solution fournit une vaste plateforme pour le machine learning en génomique dans AWS, en utilisant la classification des variants comme un exemple de problème scientifiquement pertinent qui peut être résolu avec cette plateforme. Dans l'exemple, nous résolvons le défi spécifique des définitions cliniques concurrentes lors de l'examen de variants génomiques. Notre exemple est basé sur le défi Kaggle ci-dessous. Nous créons un modèle pour faire des prévisions si un variant annoté dans ClinVar comporte une classification conflictuelle ou non. Utiliser un modèle qui peut faire des prévisions sur l'existence d'une classification conflictuelle d'un variant permet d'économiser le temps, pourtant précieux, que les chercheurs doivent consacrer à la recherche de tels conflits.
Cette solution explique comment 1) automatiser la préparation d'un ensemble de données d'entraînement pour le machine learning génomique, 2) développer des pipelines pour l'entraînement et le déploiement de modèles de machine learning génomique et 3) générer des prévisions et évaluer les performances des modèles à l'aide de données de test. Ces étapes peuvent être répétées ou modifiées par les utilisateurs en fonction de leurs cas d'utilisation spécifiques.
Présentation
Le diagramme ci-dessous présente l'architecture que vous pouvez créer à l'aide de l'exemple de code sur GitHub.

Architecture de l'analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker
La pile setup de la solution crée un projet AWS CodeBuild contenant le script setup.sh. Ce script crée les piles restantes CloudFormation et fournit le code source du référentiel pipe et du référentiel code AWS CodeCommit.
La pile de zone de destination (zone) crée le référentiel pipe de CodeCommit. Une fois la configuration de la pile de zone de destination (zone) terminée, le script setup.sh transmet le code source au référentiel pipe de CodeCommit.
Le pipeline code d'AWS CodePipeline déploie la pile CloudFormation de la base du code (code). Les ressources déployées dans votre compte comprennent les compartiments Amazon Simple Storage Service (Amazon S3) pour le stockage de journaux d'accès d'objets, des artefacts de création et des données ; les référentiels CodeCommit pour le code source ; un projet AWS CodeBuild pour la création des artefacts de code (par exemple, les bibliothèques de tiers utilisées pour le traitement des données) ; un pipeline CodePipeline pour l'automatisation des créations et du déploiement des ressources (par exemple les tâches AWS Glue) ; et une instance de blocs-notes Jupyter Amazon SageMaker. Cet exemple de code inclut les ressources nécessaires pour développer rapidement des modèles de machine learning à l'aide de données génomiques et générer des prévisions.
Analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker
Version 1.0
Dernière mise à jour : 08/2020
Auteur : AWS
Fonctions
Fournir un environnement évolutif dans AWS pour exécuter des projets d'analyse et de recherche génomiques
Tirer parti de l'intégration et de la livraison continues (CI/CD)
Tirer parti des bonnes pratiques de l'Infrastructure as Code
Modifier vos projets d'analyse et de recherche en génomique

Parcourez notre bibliothèque de solutions AWS pour obtenir des réponses aux problèmes architecturaux courants.

Trouvez des partenaires AWS certifiés pour vous aider à démarrer.

Trouvez des diagrammes d'architecture prescriptifs, des exemple de code et du contenu technique pour les cas d'utilisation courants.