Ce guide permet aux utilisateurs de préparer les données génomiques, cliniques, de mutation, d'expression et d'imagerie pour exécuter une analyse à grande échelle, et d'effectuer des requêtes interactives dans un lac de données. Il couvre l'automatisation de l'infrastructure en tant que code, ainsi qu'un pipeline d'ingestion pour transformer les données, et les blocs-notes et des tableaux de bord pour l'analyse interactive. Le guide a été élaboré en collaboration avec Bioteam.

Diagramme d'architecture

Piliers AWS Well-Architected


Autres considérations

Transformation des données

Cette architecture utilise AWS Glue pour l'extraction, la transformation et le chargement (ETL) nécessaires à l'ingestion, à la préparation et aux catalogage des jeux de données dans la solution pour les requêtes et les performances. Vous pouvez ajouter de nouvelles tâches AWS Glue et de nouveaux crawlers Glue Crawlers pour ingérer de nouveaux jeux de données The Cancer Genome Atlas (TCGA) et The Cancer Image Atlas (TCIA), si nécessaire. Vous pouvez également ajouter de nouvelles tâches et de nouveaux crawlers pour ingérer, préparer et cataloguer vos propres jeux de données propriétaires.

Analyse des données

Cette architecture utilise des blocs-notes Amazon SageMaker pour fournir un environnement de blocs-notes Jupyter pour l'analyse. Vous pouvez ajouter de nouveaux blocs-notes à l'environnement existant ou créer de nouveaux environnements. Si vous préférez les blocs-notes RStudio au blocs-notes Jupyter, vous pouvez utiliser RStudio on Amazon SageMaker.

Visualisation de données

Cette architecture utilise Amazon QuickSight pour fournir des tableaux de bord interactifs pour la visualisation et l'exploration des données. La configuration de tableau de bord QuickSight s'effectue par le biais d'un modèle AWS CloudFormation. Ainsi, si vous ne voulez pas utiliser le tableau de bord vous n'avez pas à le mettre en service. Dans QuickSight, vous pouvez créer votre propre analyse, explorer des filtres ou des visualisations supplémentaires, et partager des jeux de données et des analyses avec vos collègues.

Instructions d'utilisation

Ce référentiel crée un environnement évolutif dans AWS pour préparer les données génomiques, cliniques, de mutation, d'expression et d'imagerie pour exécuter des analyses à grande échelle et effectuer des requêtes interactives sur un lac de données. La solution montre comment 1) créer, mettre en package et déployer les bibliothèques utilisées pour la conversion des données génomiques, 2) fournir des pipelines d'ingestion de données sans serveur pour la préparation et le catalogage des données multimodales, 3) visualiser et explorer les données cliniques par le biais d'une interface interactive et 4) exécuter des requêtes analytiques interactives sur un lac de données multimodales.

Contributeurs

BioTeam est une société de conseil en informatique spécialisée dans les sciences de la vie, qui s'engage dans l'accélération des découvertes scientifiques en comblant le fossé entre ce que les scientifiques veulent faire avec les données et ce qu'ils peuvent faire. Intervenant à l'intersection de la science, des données et de la technologie depuis 2002, BioTeam dispose des fonctionnalités interdisciplinaires pour appliquer des stratégies, des technologies avancées et des services IT qui résolvent les problèmes de recherche, techniques et opérationnels les plus complexes. À même de traduire les besoins scientifiques en puissants écosystèmes de données scientifiques, nous sommes fiers de notre capacité à nous associer à un large éventail de leaders de la recherche dans le domaine des sciences de la vie, des start-ups de biotechnologie aux plus grandes entreprises pharmaceutiques mondiales, des agences gouvernementales fédérales aux institutions de recherche universitaires.

Avis de non-responsabilité

Les exemples de code, les bibliothèques de logiciels, les outils de ligne de commande, les preuves de concept, les modèles ou toute autre technologie connexe (y compris tout ce qui précède qui est fourni par notre personnel) vous sont fournis en tant que contenu AWS en vertu du contrat client AWS ou de l'accord écrit pertinent entre vous et AWS (selon le cas). Vous ne devez pas utiliser ce contenu AWS dans vos comptes de production, ni sur des données de production ou autres données critiques. Vous êtes responsable des tests, de la sécurisation et de l'optimisation du contenu AWS, tel que les exemples de code, comme il convient pour une utilisation en production, en fonction de vos pratiques et normes de contrôle de qualité spécifiques. Le déploiement de contenu AWS peut entraîner des frais AWS pour la création ou l'utilisation de ressources payantes AWS, telles que l'exécution d'instances Amazon EC2 ou l'utilisation du stockage Amazon S3.