À quoi sert cette implémentation de solutions AWS ?
La solution d'analyse tertiaire et de Machine Learning en génomique avec Amazon SageMaker crée dans le Cloud AWS une plateforme pouvant être utilisée pour créer des modèles de machine learning sur des ensembles de données génomiques avec AWS Managed Services. Nous définissons l'analyse tertiaire comme étant l'interprétation des variants génomiques et l'affectation à ces derniers de significations. Cette solution fournit une vaste plateforme pour le machine learning en génomique dans AWS, en utilisant la classification des variants comme un exemple de problème scientifiquement pertinent qui peut être résolu avec cette plateforme. Dans l'exemple, nous résolvons le défi spécifique des définitions cliniques concurrentes lors de l'examen de variants génomiques. Notre exemple est basé sur le défi Kaggle ci-dessous. Nous créons un modèle pour faire des prévisions si un variant annoté dans ClinVar comporte une classification conflictuelle ou non. Utiliser un modèle qui peut faire des prévisions sur l'existence d'une classification conflictuelle d'un variant permet d'économiser le temps, pourtant précieux, que les chercheurs doivent consacrer à la recherche de tels conflits.
Cette solution explique comment 1) automatiser la préparation d'un ensemble de données d'entraînement pour le machine learning génomique, 2) développer des pipelines pour l'entraînement et le déploiement de modèles de machine learning génomique et 3) générer des prévisions et évaluer les performances des modèles à l'aide de données de test. Ces étapes peuvent être répétées ou modifiées par les utilisateurs en fonction de leurs cas d'utilisation spécifiques.
Présentation de l'implémentation des solutions AWS
Le diagramme ci-dessous présente l'architecture que vous pouvez déployer automatiquement à l'aide du guide d'implémentation de la solution et du modèle AWS CloudFormation fourni.

Architecture de la solution d'analyse tertiaire et de Machine Learning en génomique avec Amazon SageMaker
Le modèle AWS CloudFormation crée quatre piles CloudFormation dans votre compte AWS, notamment la pile setup pour installer la solution. Les autres piles sont : la pile de zone de destination (zone) contenant les ressources et les artefacts courants de la solution, la pile de pipeline de déploiement (pipe) qui définit le pipeline d'intégration continue et de livraison continue (CI/CD) de la solution et la pile de base du code (code) qui fournit les scripts, tâches et robots ETL, un catalogue de données et des ressources de blocs-notes.
La pile setup de la solution crée un projet AWS CodeBuild contenant le script setup.sh. Ce script crée les piles CloudFormation restantes et fournit le code source des référentiels pipe et code d'AWS CodeCommit.
La pile de zone de destination (zone) crée le référentiel pipe de CodeCommit. Une fois la configuration de la pile de zone de destination (zone) terminée, le script setup.sh transmet le code source au référentiel pipe de CodeCommit.
Le pipeline code d'AWS CodePipeline déploie la pile CloudFormation de la base du code (code). Les ressources déployées dans votre compte comprennent les compartiments Amazon Simple Storage Service (Amazon S3) pour le stockage de journaux d'accès d'objets, des artefacts de création et des données ; les référentiels CodeCommit pour le code source ; un projet AWS CodeBuild pour la génération des artefacts de code (par exemple, les bibliothèques de tiers utilisées pour le traitement des données) ; un pipeline CodePipeline pour l'automatisation des créations et du déploiement des ressources (par exemple les tâches AWS Glue) ; et une instance de blocs-notes Jupyter Amazon SageMaker. Cet exemple de code inclut les ressources nécessaires pour développer rapidement des modèles de machine learning à l'aide de données génomiques et générer des prévisions.
Analyse tertiaire et Machine Learning en génomique avec Amazon SageMaker
Version 1.0
Dernière mise à jour : 08/2020
Auteur : AWS
Temps de déploiement estimé : 30 min
Remarque : pour vous abonner aux mises à jour RSS, vous devez activer un plug-in RSS pour le navigateur que vous utilisez.
Fonctions
Fournir un environnement évolutif dans AWS pour exécuter des projets d'analyse et de recherche génomiques
Tirer parti des bonnes pratiques de l'infrastructure en tant que code
Tirer parti de l'intégration et de la livraison continues (CI/CD)
Modifier vos projets d'analyse et de recherche en génomique

Parcourez notre bibliothèque des implémentations des solutions AWS pour obtenir des réponses aux problèmes d'architecture courants.

Trouvez des partenaires consultants et technologiques certifiés AWS pour vous aider à commencer.

Parcourez notre portefeuille d'offres de conseil pour obtenir une aide approuvée AWS au déploiement de solutions.