Étude de cas Baylor
2014
La Faculté de médecine Baylor de Houston (Texas) héberge le centre de séquençage du génome humain (Human Genome Sequencing Center, ou HGSC), l'un des trois centres de séquençage américains subventionnés par l'État fédéral. L'un des projets impliquant le HGSC est le projet Cohortes pour la recherche en cardiologie et en médecine génératrice dans le cadre de l'épidémiologie génomique (Cohorts for Heart and Aging Research in Genomic Epidemiology, ou CHARGE), un consortium de plus de 200 scientifiques de 5 institutions du monde entier qui travaillent pour identifier les gènes à l'origine du vieillissement et des maladies cardiaques. Le projet CHARGE est encore actif et analyse des échantillons génétiques et des données de phénotype provenant de grandes études de cohortes de l'institut national du cœur, des poumons et du sang (National Heart, Lung, and Blood Institute, ou NHLBI) et d'autres études semblables en Europe. CHARGE et la faculté de médecine de Baylor collaborent pour séquencer de nombreux participants à l'étude et pour les traiter grâce au pipeline d'analyse Mercury de Baylor, afin d'aider les scientifiques à comprendre comment la variation génétique peut jouer un rôle dans la prévention et le traitement des attaques et des maladies cardiaques. Baylor possède 20 appareils de séquençage qui fournissent environ 24 térabases de contenu chaque mois, soit à peu près 1 Po de données brutes. Actuellement, plus de 14 000 personnes participent à l'étude. L'ampleur des données exige des solutions innovantes.
La mise à niveau de votre infrastructure pour chaque afflux important que vous voyez venir nécessite des investissements substantiels, sans parler de l'espace. Ces types de calculs ne sont pas non plus ponctuels. Au contraire, ils connaissent une croissance exponentielle. Notre capacité à trouver les démarcations de la science est limitée de différentes manières. Mais à présent, grâce à AWS et DNAnexus, nous pouvons nous concentrer sur la science et non pas sur l'infrastructure.”
Narayanan Veeraraghavan
Chef scientifique programmeur, Baylor
Le défi
Au cours du siècle dernier, de nombreuses études ont suivi des patients tout au long de leur vie pour observer le développement de certaines maladies ou de certains états. Avec le développement des outils de séquençage de l'ADN et de la capacité de gérer de grands ensembles de données, les résultats de ces études sont à présent analysés de nouveau au sein du projet CHARGE. Les scientifiques du monde entier impliqués dans le projet CHARGE utilisent les données pour chercher les causes et contribuer à la prévention des maladies.
Cependant, alors que les séquenceurs d'ADN deviennent plus efficaces et l'évaluation génomique plus fréquente, la masse de données à analyser est devenue véritablement considérable. Le projet CHARGE mobilise plus de 430 To de données. La seule distribution des données aux scientifiques intéressés est un défi à part entière. Auparavant, des disques durs contenant les données auraient été chiffrés puis envoyés par courrier aux nombreux scientifiques (plus de 200) impliqués dans le projet CHARGE, ce qui aurait créé des retards pour le partage d'informations et des problèmes de sécurité des données. « L'envoi de disques durs à autant de personnes serait un véritable cauchemar d'un point de vue logistique, explique Narayanan Veeraraghavan, programmeur scientifique en chef à Baylor. Il aurait fallu chiffrer les données à tous les niveaux. Avec autant de scientifiques manipulant autant de disques durs, de nombreuses défaillances se seraient produits, car ils n'auraient pas tous été en mesure de suivre les consignes de sécurité.”
L'infrastructure en elle-même constituait un défi de taille. « Il faut quelques mois pour configurer une infrastructure pour répondre à un besoin particulier en matière de stockage de données et de calcul », déclare Narayanan Veeraraghavan. « Durant ce laps de temps, la technologie peut évoluer, les protocoles peuvent changer et les mises à jour de la plate-forme de séquençage peuvent doubler la productivité des séquenceurs. La demande a donc doublé depuis le moment où vous avez planifié et estimé vos besoins matériels ». Baylor voulait également que les scientifiques soient capables de partager les outils, quel que soit le système d'exploitation.
La charge de calcul local « peut ruiner les projets », affirme Narayanan Veeraraghavan. « Nous devons être capables de travailler à tous les niveaux et de stocker de grandes quantités de données. Nous avions besoin d'une autre solution ou le projet CHARGE aurait été bien trop cher. Il aurait été difficile, voire impossible, d'obtenir par nous-mêmes les ressources de calcul dont nous avions besoin ».
Pourquoi Amazon Web Services
Baylor avait besoin d'une solution économique et facile à gérer, afin de permettre une coopération efficace dans le monde entier, sans pâtir des retards dus à la configuration d'une infrastructure physique. « Nous ne pouvions pas nous permettre de consacrer plusieurs mois à la mise en place d'une infrastructure et nous avions besoin de pouvoir partager les données de façon interactive en toute sécurité et sans perdre en efficacité », explique M. Veeraraghavan.
Il fallait une solution suffisamment flexible pour satisfaire aux normes cliniques, ainsi qu'aux exigences HIPAA. « Lorsque nous avons fait le point sur nos besoins et exigences, nous nous sommes naturellement tournés vers DNAnexus et le Cloud AWS ».
Baylor a décidé de collaborer avec DNAnexus, qui développe une PaaS basée sur des API permettant aux entreprises cliniques et de recherche de migrer efficacement et en toute sécurité leurs pipelines et leurs données sur le Cloud AWS. DNAnexus permet à ses clients d'effectuer le portage de leurs algorithmes propriétaires dans le cloud, ainsi que d'avoir accès à des outils reconnus dans le secteur et des ressources de référence pour créer des flux de travail personnalisés. La PaaS de DNAnexus est entièrement conçue sur AWS, ce qui a permis à DNAnexus d'étendre son système sur plus de 20 000 cœurs de calcul simultanés, 1 Po d'espace de stockage, des millions d'heures d'activité de cœur à des fins d'analyse et des centaines de milliers de tâches de calcul orchestrées dans le Cloud AWS. AWS a également fourni un accord de partenariat (BAA, Business Associates Agreement) à DNAnexus. L'entreprise est ainsi en mesure d'offrir la meilleure sécurité du marché et une conformité avec les lois américaines et internationales relatives à la santé. Avec AWS, les clients peuvent concevoir et exécuter des charges de travail conformes aux normes de l'HIPAA.
Le projet CHARGE utilise Mercury, le pipeline d'analyse de Baylor, pour traiter ses données. Le pipeline Mercury consomme des fichiers bruts du séquenceur et transforme ces données en livrable final : un fichier annoté au format VCF, qui identifie les mutations pouvant être significatives d'un point de vue clinique. En aval, les scientifiques réalisent des analyses tertiaires pour résoudre des questions de recherche additionnelles. Un petit groupe de chercheurs développe des outils qui se concentrent sur la biologie de chaque marqueur génétique, afin de pouvoir traiter à nouveau les données en tenant compte des nouvelles conclusions sur les gènes prédictifs ou protecteurs. Les scientifiques peuvent comparer différents outils et les partager dans le monde entier en utilisant la plate-forme DNAnexus.
DNAnexus utilise Amazon Simple Storage Service (Amazon S3) et Amazon Glacier pour stocker plusieurs pétaoctets de données génomiques. DNAnexus a créé un outil de lignes de commande qui donne la possibilité aux scientifiques de charger les données d'ADN directement depuis l'instrument de séquençage vers le cloud, et d'éliminer ainsi le besoin d'une infrastructure de stockage sur site onéreuse. Amazon Elastic Compute Cloud (Amazon EC2) héberge l'analyse d'ADN en elle-même. DNAnexus développe une mise en file d'attente personnalisée reposant sur des instances Amazon EC2, qui est conçue pour gérer les interruptions dans le traitement des données.
Afin d'optimiser les coûts, DNAnexus utilise les instances réservées Amazon EC2 pour ses services interactifs, notamment son site Web, le portail front-end client et les outils de visualisation de l'ADN, ainsi que pour ses services backend de gestion du cloud et des tâches.
Baylor et DNAnexus protègent les données de CHARGE en contrôlant les accès au pipeline Mercury grâce aux bonnes pratiques définies par AWS. « Nous gérons des informations médicales sensibles à propos de personnes », explique Narayanan Veeraraghavan. « En utilisant un pipeline et en y contrôlant l'accès, il est possible de structurer un environnement de façon à minimiser les risques ». Les protocoles de sécurité rigoureux d'AWS permettent à DNAnexus d'offrir la meilleure sécurité du marché, une conformité et des standards d'audit conformes à l'HIPAA, aux CLIA (Clinical Laboratory Improvement Amendments) et à d'autres mesures réglementaires complexes. Comme l'explique Omar Serang, responsable cloud chez DNAnexus : « Nous sommes capables de soutenir des études cliniques de grande envergure qui demandent une infrastructure de calcul dans un environnement sécurisé et conforme, à une échelle autrefois impossible ».
Architecture du HGSC de Baylor sur le Cloud AWS
Les avantages
Après la migration sur AWS et DNAnexus, Baylor a réalisé sa première analyse en dix jours, soit cinq fois plus rapidement qu'avec l'infrastructure locale, et a été capable de partager ses résultats rapidement. L'analyse a nécessité 21 000 cœurs. Une instance Amazon EC2 XL compte 16 cœurs virtuels. « Le Cloud AWS permet une collaboration rapide, même avec des centaines de téraoctets de données », affirme Narayanan Veeraraghavan. « La possibilité d'avoir un point central de traitement des données a permis de réduire la bande passante et le besoin d'acheter et d'entretenir de larges ressources de calcul ».
Les choses ont bien changé depuis l'époque où Baylor devait expédier des disques durs pour aider les scientifiques à collaborer. En utilisant AWS et DNAnexus, Baylor et CHARGE ont pu fournir un environnement commun pour partager des outils d'analyse à des scientifiques utilisant différents systèmes. « Tout scientifique, qu'il utilise un système Mac, Linux ou Windows, peut exécuter n'importe quel outil avec les données de CHARGE dans DNAnexus », explique Narayanan Veeraraghavan. Andrew Carroll, scientifique responsable de DNAnexus pour CHARGE, ajoute : « L'utilisation du Cloud AWS permet de comparer les outils et ainsi de comprendre ce qui fonctionne ou non pour un projet. Avec DNAnexus sur le cloud AWS, les chercheurs peuvent partager leurs connaissances avec la communauté scientifique ».
L'évolutivité du Cloud AWS aide les scientifiques du projet CHARGE à gagner en capacité de prédiction pour les maladies qu'ils étudient. Ils peuvent également identifier les gènes « protecteurs », susceptibles de protéger une personne contre le développement d'une maladie données, de manière rapide et sécurisée. « C'est par définition la raison pour laquelle vous voulez aller sur le Cloud AWS », explique Andrew Carroll. « CHARGE doit exécuter des pics d'activité très importants pendant un temps aussi court que possible pour terminer l'opération. L'utilisation du Cloud AWS offre à DNAnexus la flexibilité nécessaire pour concevoir sa propre PaaS sur la technologie d'AWS. Nous pouvons faire évoluer le système DNAnexus pour atteindre des ressources de calcul et de stockage de données pratiquement illimitées ».
Enfin, l'utilisation de DNAnexus et d'AWS permet aux scientifiques de CHARGE de se concentrer sur la science et non pas sur l'infrastructure. « La mise à niveau de votre infrastructure à chaque afflux important anticipé demande un investissement considérable, sans même parler de l'espace nécessaire », affirme Narayanan Veeraraghavan. « Ces types de calculs ne sont pas non plus ponctuels. Au contraire, ils connaissent une croissance exponentielle. Notre capacité à trouver les démarcations de la science est limitée de différentes manières. Mais à présent, grâce à AWS et DNAnexus, nous pouvons nous concentrer sur la science et non pas sur l'infrastructure. »
À propos de Baylor
La Faculté de médecine Baylor de Houston (Texas) héberge le centre de séquençage du génome humain (Human Genome Sequencing Center, ou HGSC), l'un des trois centres de séquençage américains subventionnés par l'État fédéral.
Services AWS utilisés
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) est un service Web qui fournit une capacité de calcul sécurisée et redimensionnable dans le cloud. Destiné aux développeurs, il est conçu pour faciliter l'accès aux ressources de cloud computing à l'échelle du Web.
Amazon S3
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objet offrant une scalabilité, une disponibilité des données, une sécurité et des performances de pointe.
En savoir plus »
Amazon Glacier
Amazon S3 Glacier et S3 Glacier Deep Archive sont des classes de stockage dans le Cloud sécurisées, durables et à très faibles coûts Amazon S3 qui permettent l'archivage et la sauvegarde des données à long terme.
En savoir plus »
Démarrer
Les entreprises de toutes tailles et de tous les secteurs d’activités transforment chaque jour leurs activités à l’aide d’AWS. Contactez nos spécialistes et entamez votre transition vers le Cloud AWS dès aujourd'hui.