Le HGSC du Baylor College of Medicine analyse les données génomiques plus rapidement grâce à Illumina DRAGEN sur AWS

2022

Le Centre de séquençage du génome humain (Human Genome Sequencing Center, HGSC) du Baylor College of Medicine (Baylor) est l'un des rares laboratoires de séquençage génomique financé par le programme de recherche All of Us des National Institutes of Health aux États-Unis. En 2019, le HGSC a commencé à explorer des solutions pour fournir une analyse hautement évolutive et sécurisée de ses grands jeux de données génomiques. Le HGSC a fait appel à Illumina, partenaire avancé d'AWS, pour évaluer de manière approfondie la plateforme bioinformatique Illumina DRAGEN (Dynamic Read Analysis for Genomics, Analyse dynamique des lectures pour la génomique). Une solution bioinformatique qui fournit une analyse génomique secondaire hautement précise, complète et efficace des données de séquençage et utilise la technologie FPGA (Field Programmable Gate Array, Réseau de portes programmables in situ) pour l'accélération. 

En utilisant DRAGEN et les services AWS, le HGSC peut analyser des centaines d'échantillons génomiques par jour. Cette solution a permis à Baylor d'accroître sa participation à des initiatives de recherche telles que le programme de recherche All of Us des National Institutes of Health, un effort national visant à accélérer les progrès vers la médecine de précision en collectant et en analysant les données médicales et génétiques d'un million de volontaires.

Scientist Working on Computer In  Modern LaboratoryNOTE TO INSPECTOR: all graps, dna models, charts are made by me
kr_quotemark

Quand de grandes quantités de données sortent des instruments de séquençage, nous utilisons les FPGA sur AWS pour traiter ces données rapidement. » 

Eric Venner
Professeur associé et Chef de Clinical Informatics Group, Centre de séquençage du génome humain, Baylor College of Medicine

Recherche de solutions pour accélérer la recherche

Baylor est une université des sciences de la santé située à Houston, au Texas. Elle se classe au vingtième rang aux États-Unis en ce qui concerne le financement des National Institutes of Health et au premier rang en génétique. En 2016, Baylor a lancé le laboratoire clinique HGSC pour soutenir les efforts de séquençage à grande échelle visant à préparer les données génomiques à des fins cliniques. Le HGSC a joué un rôle crucial dans le projet sur le génome humain et le programme de recherche All of Us, pour lesquels Baylor, Johns Hopkins University et University of Texas Health Science Center à Houston travaillent en tant que centres de génomique aux côtés d'autres groupes aux États-Unis. 

Pour que Baylor puisse participer au programme, le HGSC devait évoluer pour répondre à des charges de travail de séquençage importantes et simplifier la gestion du calcul et du stockage. L'université devait également respecter des normes de conformité strictes, comme notamment la norme ISO/CEI 27001 qui comprend plus de 100 exigences de sécurité et des réglementations fédérales qui contrôlent l'accessibilité des données et des informations classifiées. Les données génétiques sont considérées comme des informations contrôlées non classifiées, qui sont soumises à des contrôles de sauvegarde supplémentaires. « Nous avons dû respecter des normes légèrement supérieures à celles de la loi HIPAA », affirme Richard Gibbs, directeur du HGSC. 

Baylor avait précédemment travaillé avec Illumina, qui fournit des technologies logicielles et de séquençage, mais utilisait déjà AWS pour le calcul génomique depuis 2012. Tous les centres participant au programme de recherche All of Us ont standardisé DRAGEN pour les analyses secondaires. Cependant, le HGSC s'est rendu compte que la migration vers DRAGEN sur le cloud depuis ses locaux présentait le potentiel le plus immédiat et à long terme, notamment pour attirer et fidéliser les membres de l'équipe. « Travailler sur le cloud est un avantage, car les utilisateurs souhaitent découvrir des technologies qui seront populaires au cours des prochaines décennies », explique Eric Venner, professeur associé et Chef du Clinical Informatics Group du HGSC. « Nous pouvons désormais attirer de jeunes ingénieurs très talentueux. »

Utiliser DRAGEN sur AWS pour garantir la précision, la capacité de mise à l'échelle et la sécurité

Au printemps 2019, l'équipe de Baylor a commencé à collaborer avec Illumina sur la technologie d'appel de variants. Elle identifie les variants dans les données de séquençage. À l'automne 2019, Noora Siddiqui, l'ingénieure de l'équipe, a commencé à créer le pipeline de production à l'aide d'Illumina DRAGEN sur AWS, un outil AWS Quick Start qui met en place un environnement AWS configurable pour DRAGEN. Au bout de 3 semaines, le premier test à l'échelle a été effectué et ainsi, en à peine plus de 3 mois, le pipeline était opérationnel. « Nous avons terminé le pipeline en utilisant l'assistance technique d'AWS », ajoute Eric Venner. « En utilisant Illumina DRAGEN sur AWS, notre ingénieure a pu intégrer la solution dans un nouveau système de production. »

 Grâce à DRAGEN d'Illumina sur AWS, Baylor est en mesure de s'adapter à la demande et de traiter les données beaucoup plus rapidement qu'auparavant. Le HGSC traite environ 5 000 génomes par mois. « Nous sommes nombreux à avoir un séquenceur et un plan, mais il est extrêmement difficile de générer 5 000 génomes par mois avec fiabilité », ajoute Richard Gibbs. « C'est ce que nous faisons ici. Cela demande beaucoup de compétences et de support en ingénierie, mais cela profite au secteur. » 

La solution DRAGEN de Baylor accélère l'analyse des données génomiques à l'aide d'instances F1 d'Amazon Elastic Compute Cloud (Amazon EC2). DRAGEN utilise des FPGA pour fournir des accélérations matérielles personnalisées. « Nos charges de travail se succèdent par salves brèves et soudaines », explique Eric Venner. « Quand de grandes quantités de données sortent des instruments de séquençage, nous utilisons les FPGA sur AWS pour traiter ces données rapidement. » Le centre utilise des instances F1 Amazon EC2 ainsi que des instances Spot Amazon EC2, ce qui permet aux utilisateurs d'exécuter des charges de travail résistantes aux pannes avec une réduction de 90 % par rapport aux instances à la demande Amazon EC2. « Nous pouvons économiser sur les coûts informatiques grâce aux instances Spot », continue Eric Venner. 

Le HGSC stocke ses données en temps réel à l'aide d'Amazon Simple Storage Service (Amazon S3), un service de stockage d'objets conçu pour extraire n'importe quelle quantité de données, depuis n'importe où. Les données qui n'ont pas besoin d'être utilisées immédiatement sont automatiquement transmises à Amazon S3 Glacier, qui propose des classes de stockage dans le cloud sécurisées, durables et extrêmement économiques pour l'archivage des données et la sauvegarde à long terme. « La gestion du stockage et le cycle de vie automatisé des données sur AWS sont très importants », déclare Eric Venner. L'équipe informatique du HGSC utilise AWS pour répondre aux normes de sécurité et de conformité. « Il est plus simple de réaliser des audits de sécurité pour une nouvelle solution cloud que pour un environnement existant doté de nombreux équipements intégrés », affirme Eric Venner.

Le HGSC peut rapidement créer des environnements informatiques, car sa solution DRAGEN utilise Amazon Elastic Container Service (Amazon ECS), un service d'orchestration de conteneurs entièrement géré pour le déploiement, la gestion et la mise à l'échelle d'applications conteneurisées. « Il est important de capturer l'environnement dans lequel s'exécute une tâche », continue Eric Venner. « Auparavant, les individus créaient et géraient des environnements complexes pour exécuter différents types de tâches au même endroit. Désormais, nous pouvons créer un environnement spécifique à la tâche en cours d'exécution, ce qui simplifie le débogage. » 

Appliquer les solutions Illumina et AWS au secteur de la santé

En utilisant DRAGEN d'Illumina sur AWS, le HGSC espère intégrer pleinement sa technologie pour les pratiques médicales. L'analyse du génome humain par le HGSC permet de prédire les risques pour la santé d'un individu, d'expliquer les affections sous-jacentes et de modifier la prise en charge clinique, favorisant ainsi des soins plus complets pour les patients. Par exemple, le HGSC a récemment collaboré avec des cliniques cardiovasculaires du Texas Medical Center pour réaliser l'étude nommée HeartCare. Elle met l'accent sur l'identification des gènes liés aux maladies cardiovasculaires. « Nous avons étudié les allèles cardiovasculaires à haute pénétrance présents dans des gènes clés et la manière dont les individus pourraient bénéficier de ces informations dans le cadre du système de soins cliniques. », déclare Eric Venner.

À l'avenir, Baylor continuera d'explorer les services AWS et les solutions Illumina afin d'améliorer davantage la sécurité et la rapidité de son traitement des données. « Nous espérons élargir l'accessibilité aux données génétiques, en particulier pour les personnes mal prises en charge par le système de soins médicaux ou qui connaissent de nombreuses discontinuités dans leur traitement », affirme Richard Gibbs. « Ils seront les premiers visés. Nous voulons les aider à accéder à des informations génétiques qui leur seront utiles pour établir leur profil de santé. »


À propos du Baylor College of Medicine

Le Baylor College of Medicine de Houston au Texas, abrite le Centre de séquençage du génome humain (HGSC), l'un des rares centres de séquençage génomique aux États-Unis à bénéficier d'un financement des National Institutes of Health.

Avantages d'AWS

  • A construit son pipeline de données en à peine plus de 3 mois
  • Traite les données plus rapidement que son pipeline précédent
  • Traite environ 5 000 génomes par mois
  • Recrute les meilleurs talents en ingénierie
  • Simplifie la sécurité et la conformité
  • Automatise la gestion du stockage et les processus du cycle de vie des données
  • S'adapte automatiquement aux pics de volume

Services AWS utilisés

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) est un service Web qui fournit une capacité de calcul sécurisée et redimensionnable dans le cloud. Destiné aux développeurs, il est conçu pour faciliter l'accès aux ressources de cloud computing à l'échelle du Web.

En savoir plus »

Instances F1 Amazon EC2

Les instances F1 Amazon EC2 utilisent des FPGA pour fournir des accélérations matérielles personnalisées. Les instances F1 sont faciles à programmer et comprennent tout ce dont vous avez besoin pour développer, simuler, déboguer et compiler votre code d'accélération matérielle, notamment une AMI prenant en charge le développement au niveau du cloud.

En savoir plus »

Instances Spot Amazon EC2

Les instances Spot Amazon EC2 vous permettent de profiter des capacités EC2 non utilisées dans le cloud AWS. Les instances Spot sont disponibles avec une réduction allant jusqu'à 90 % par rapport aux tarifs des instances à la demande.

En savoir plus »

Illumina DRAGEN sur AWS

DRAGEN Bio-IT Platform permet de réaliser une analyse ultrarapide de données de séquençage nouvelle génération (NGS), de réduire significativement le temps nécessaire à l'analyse de données génomiques et d'améliorer la précision.

En savoir plus »


Démarrer

Les organisations de toutes tailles et de tous secteurs transforment leur activité et exécutent leurs missions au quotidien à l'aide d'AWS. Contactez nos experts et démarrez votre transition vers AWS dès aujourd'hui.