La faculté de médecine de Baylor à Houston (Texas) héberge le centre de séquençage du génome humain (Human Genome Sequencing Center, ou HGSC), l'un des trois centres de séquençage américains subventionnés par l'État fédéral. L'un des projets impliquant le HGSC est le projet Cohortes pour la recherche en cardiologie et en médecine génératrice dans le cadre de l'épidémiologie génomique (Cohorts for Heart and Aging Research in Genomic Epidemiology, ou CHARGE), un consortium de plus de 200 scientifiques de 5 institutions du monde entier qui travaillent pour identifier les gènes à l'origine du vieillissement et des maladies cardiaques. Le projet CHARGE est encore actif et analyse des échantillons génétiques et des données de phénotype provenant de grandes études de cohortes de l'institut national du cœur, des poumons et du sang (National Heart, Lung, and Blood Institute, ou NHLBI) et d'autres études semblables en Europe. CHARGE et la faculté de médecine de Baylor collaborent pour séquencer de nombreux participants à l'étude et pour les traiter grâce au pipeline d'analyse Mercury de Baylor, afin d'aider les scientifiques à comprendre comment la variation génétique peut jouer un rôle dans la prévention et le traitement des attaques et des maladies cardiaques. Baylor possède 20 appareils de séquençage qui fournissent environ 24 térabases de contenu chaque mois, soit à peu près 1 Po de données brutes. Actuellement, plus de 14 000 personnes participent à l'étude. L'ampleur des données exige des solutions innovantes.

DNAnexus offre de la gestion de données, des analyses de données de séquençage de nouvelle génération et une collaboration sécurisée pour les centres de séquençage d'ADN et les chercheurs. Les services de DNAnexus sont offerts grâce à un système unique et unifié qui évolue pour répondre aux besoins académiques ou commerciaux spécifiques des clients. Ce système unifié inclut une infrastructure à la demande pour le calcul et le stockage, la prise en charge de la bio-informatique et du cloud computing, une collaboration sécurisée et conforme et de nombreuses autres fonctionnalités. La solution PaaS de DNAnexus, qui est conçue sur Amazon Web Services (AWS), est utilisée par des institutions académiques, des laboratoires de recherche gouvernementaux, des compagnies biopharmaceutiques et des fournisseurs de tests de diagnostic.

Au cours du siècle dernier, de nombreuses études ont suivi des patients tout au long de leur vie pour observer le développement de certaines maladies ou de certains états. Avec le développement des outils de séquençage de l'ADN et de la capacité de gérer de grands ensembles de données, les résultats de ces études sont à présent analysés de nouveau au sein du projet CHARGE. Les scientifiques du monde entier impliqués dans le projet CHARGE utilisent les données pour chercher les causes et contribuer à la prévention des maladies.

Cependant, alors que les séquenceurs d'ADN deviennent plus efficaces et l'évaluation génomique plus fréquente, la masse de données à analyser est devenue véritablement considérable. Le projet CHARGE mobilise plus de 430 To de données. La seule distribution des données aux scientifiques intéressés est un défi à part entière. Auparavant, des disques durs contenant les données auraient été chiffrés puis envoyés par courrier aux nombreux scientifiques (plus de 200) impliqués dans le projet CHARGE, ce qui aurait créé des retards pour le partage d'informations et des problèmes de sécurité des données. « L'envoi de disques durs à autant de personnes serait un véritable cauchemar d'un point de vue logistique, explique Narayanan Veeraraghavan, programmeur scientifique en chef à Baylor. Il aurait fallu chiffrer les données à tous les niveaux. Avec autant de scientifiques manipulant autant de disques durs, il y aurait eu de nombreuses défaillances, car ils n'auraient pas tous été en mesure de suivre les consignes de sécurité. »

L'infrastructure en elle-même constituait un défi de taille. « Il faut quelques mois pour configurer une infrastructure pour répondre à un besoin particulier en termes de stockage de données et de calcul, déclare Narayanan Veeraraghavan. Durant ce laps de temps, la technologie peut évoluer, les protocoles peuvent changer et les mises à jour de la plate-forme de séquençage peuvent doubler la productivité des séquenceurs. La demande a donc doublé depuis le moment où vous avez planifié et estimé vos besoins matériels. » Baylor voulait également que les scientifiques soient capables de partager les outils, quel que soit le système d'exploitation.

La charge de calcul local « peut faire plier les projets, affirme Narayanan Veeraraghavan. Nous devons être capables de travailler à tous les niveaux et de stocker de grandes quantités de données. Nous avions besoin d'une autre solution ou le projet CHARGE aurait été bien trop cher. Il aurait été difficile, voire impossible, d'obtenir par nous-mêmes les ressources de calcul dont nous avions besoin. »

Baylor avait besoin d'une solution économique et facile à gérer, afin de permettre une coopération efficace dans le monde entier, sans pâtir des retards dus à la configuration d'une infrastructure physique. « Nous ne pouvions pas nous permettre de consacrer plusieurs mois à la mise en place d'une infrastructure et nous avions besoin de pouvoir partager les données de façon interactive en toute sécurité et sans perdre en efficacité », explique M. Veeraraghavan.

Il fallait une solution suffisamment flexible pour satisfaire aux normes cliniques ainsi qu'aux exigences HIPAA. « Lorsque nous avons fait le point sur nos besoins et exigences, nous nous sommes naturellement tournés vers DNAnexus et le cloud AWS. »

Baylor a décidé de collaborer avec DNAnexus, qui développe une PaaS basée sur des API permettant aux entreprises cliniques et de recherche de migrer efficacement et en toute sécurité leurs pipelines et leurs données sur le cloud AWS. DNAnexus permet à ses clients d'effectuer le portage de leurs algorithmes propriétaires dans le cloud, ainsi que d'avoir accès à des outils reconnus dans le secteur et des ressources de référence pour créer des workflows personnalisés. La PaaS de DNAnexus est entièrement conçue sur AWS, ce qui a permis à DNAnexus d'étendre son système sur plus de 20 000 cœurs de calcul simultanés, 1 Po d'espace de stockage, des millions d'heures d'activité de cœur à des fins d'analyse et des centaines de milliers de tâches de calcul exécutées dans le cloud AWS. AWS a également fourni une convention de collaborateurs (BAA, Business Associates Agreement) à DNAnexus. L'entreprise est ainsi en mesure d'offrir la meilleure sécurité du marché et une conformité avec les lois américaines et internationales relatives à la santé. Avec AWS, les clients peuvent concevoir et exécuter des charges de travail conformes aux normes de l'HIPAA.

Le projet CHARGE utilise Mercury, le pipeline d'analyse de Baylor, pour traiter ses données. Le pipeline Mercury consomme des fichiers bruts du séquenceur et transforme ces données en livrable final : un fichier annoté au format VCF, qui identifie les mutations pouvant être significatives d'un point de vue clinique. En aval, les scientifiques réalisent des analyses tertiaires pour résoudre des questions de recherche additionnelles. Un petit groupe de chercheurs développe des outils qui se concentrent sur la biologie de chaque marqueur génétique, afin de pouvoir traiter à nouveau les données en tenant compte des nouvelles conclusions sur les gènes prédictifs ou protecteurs. Les scientifiques peuvent comparer différents outils et les partager dans le monde entier en utilisant la plate-forme DNAnexus.

DNAnexus utilise Amazon Simple Storage Service (Amazon S3) et Amazon Glacier pour stocker plusieurs pétaoctets de données génomiques. DNAnexus a créé un outil de lignes de commande qui donne la possibilité aux scientifiques de charger les données d'ADN directement depuis l'instrument de séquençage vers le cloud, et d'éliminer ainsi le besoin d'une infrastructure de stockage sur site onéreuse. Amazon Elastic Compute Cloud (Amazon EC2) héberge l'analyse d'ADN en elle-même. DNAnexus développe une mise en file d'attente personnalisée reposant sur des instances Amazon EC2, qui est conçue pour gérer les interruptions dans le traitement des données.

Afin d'optimiser les coûts, DNAnexus utilise les instances réservées Amazon EC2 pour ses services interactifs, notamment son site web, le portail frontend client et les outils de visualisation de l'ADN, ainsi que pour ses services backend de gestion du cloud et des tâches.

DNAnexus.arch

Illustration 1. Architecture du HGSC de Baylor sur le cloud AWS

Baylor et DNAnexus protègent les données de CHARGE en contrôlant les accès au pipeline Mercury grâce aux bonnes pratiques définies par AWS. « Nous gérons des informations médicales sensibles à propos de personnes existantes, explique Narayanan Veeraraghavan. En utilisant un pipeline et en y contrôlant l'accès, il est possible de structurer un environnement de façon à minimiser les risques. » Les protocoles de sécurité rigoureux d'AWS permettent à DNAnexus d'offrir la meilleure sécurité du marché, une conformité et des standards d'audit conformes à l'HIPAA, aux CLIA (Clinical Laboratory Improvement Amendments) et à d'autres mesures réglementaires complexes. Comme l'explique Omar Serang, responsable cloud chez DNAnexus : « Nous sommes capables de soutenir des études cliniques de grande envergure qui demandent une infrastructure de calcul dans un environnement sécurisé et conforme, à une échelle autrefois impossible. »

Après la migration sur AWS et DNAnexus, Baylor a réalisé sa première analyse en dix jours, soit cinq fois plus rapidement qu'avec l'infrastructure locale, et a été capable de partager ses résultats rapidement. L'analyse a nécessité 21 000 cœurs. Une instance Amazon EC2 XL compte 16 cœurs virtuels. « Le cloud AWS permet une collaboration rapide, même avec des centaines de téraoctets de données, affirme Narayanan Veeraraghavan. La possibilité d'avoir un point central de traitement des données a permis de réduire la bande passante et le besoin d'acheter et d'entretenir de larges ressources de calcul. »

Les choses ont bien changé depuis l'époque où Baylor devait expédier des disques durs pour aider les scientifiques à collaborer. En utilisant AWS et DNAnexus, Baylor et CHARGE ont pu fournir un environnement commun pour partager des outils d'analyse à des scientifiques utilisant différents systèmes. « Tout scientifique, qu'il utilise un système Mac, Linux ou Windows, peut exécuter n'importe quel outil avec les données de CHARGE dans DNAnexus », explique Narayanan Veeraraghavan. Andrew Carroll, scientifique responsable de DNAnexus pour CHARGE, ajoute : « L'utilisation du cloud AWS permet de comparer les outils et ainsi de comprendre ce qui fonctionne ou non pour un projet. Avec DNAnexus sur le cloud AWS, les chercheurs peuvent partager leurs connaissances avec la communauté scientifique. »

L'évolutivité du cloud AWS aide les scientifiques du projet CHARGE à gagner en capacité de prédiction pour les maladies qu'ils étudient. Ils peuvent également identifier les gènes « protecteurs », susceptibles de protéger une personne contre le développement d'une maladie données, de manière rapide et sécurisée. « C'est par définition la raison pour laquelle vous voulez aller sur le cloud AWS, explique Andrew Carroll. CHARGE doit exécuter des pics d'activité très importants pendant un temps aussi court que possible pour terminer l'opération. L'utilisation du cloud AWS offre à DNAnexus la flexibilité nécessaire pour concevoir sa propre PaaS sur la technologie d'AWS. Nous pouvons faire évoluer le système DNAnexus pour atteindre des ressources de calcul et de stockage de données pratiquement illimitées. »

Enfin, l'utilisation de DNAnexus et d'AWS permet aux scientifiques de CHARGE de se concentrer sur la science et non pas sur l'infrastructure. « La mise à niveau de votre infrastructure à chaque afflux important anticipé demande un investissement considérable, sans même parler de l'espace nécessaire, affirme Narayanan Veeraraghavan. Ces types de calculs ne sont pas non plus ponctuels. Au contraire, ils connaissent une croissance exponentielle. Notre capacité à trouver les démarcations de la science est limitée de différentes manières. Mais à présent, grâce à AWS et DNAnexus, nous pouvons nous concentrer sur la science au lieu de l'infrastructure. »

Pour en savoir plus sur la génomique dans le cloud, consultez la page dédiée à AWS pour la génomique.