L’Institut Pasteur et AWS analysent l'ADN mondial, à partir d’une base de données publique
L'Institut Pasteur a traité 20 pétaoctets de données ADN en un temps record de 30 heures, en utilisant AWS Batch sur un cluster de 2,18 millions de cœurs AWS Graviton.
Avantages
Présentation
Moins de 0,01% des virus existants ont été identifiés à ce jour. Et parmi ces innombrables espèces encore méconnues se cache peut-être le responsable d’une pandémie à venir. Au lendemain de la crise de Covid-19, et afin d’identifier plus facilement les prochaines menaces, un projet de recherche « IndexThePlanet » à l’Institut Pasteur a donc entrepris un travail d’analyse et de cartographie de l’ADN de l’ensemble du monde vivant, à partir d’une base de données publique.
Mais pour traiter un tel volume de données, le projet a dû mettre sur pied une infrastructure capable de relever le défi représenté par les quelques 20 pétaoctets à traiter. C’est tout l’objet du partenariat noué avec Amazon Web Services (AWS) qui a mis à la disposition des chercheurs un cluster de plus de 2 millions de vCPUs pour mener à bien ce travail de titan.
À propos de l'Institut Pasteur
L'Institut Pasteur est un centre de recherche biomédical français de renommée mondiale, fondé par Louis Pasteur en 1887, qui mène des travaux scientifiques de pointe sur les maladies infectieuses et la santé publique.
Opportunité
Seuls 0,01% des virus existants ont été identifiés à ce jour, et leur nombre total est encore très incertain. Parmi ces innombrables espèces encore méconnues se cache peut-être le responsable d’une pandémie à venir. Au lendemain de la crise de Covid-19, une équipe de recherche de l’Institut Pasteur a donc entrepris un travail d’analyse et de cartographie de l’ADN de l’ensemble du vivant afin de faciliter l’identification des prochaines menaces.
Pour traiter un tel volume de données, l’équipe a mis en place une infrastructure capable de relever le défi représenté par 20 pétaoctets de données ADN à traiter. À titre de comparaison, cela correspond à peu près à l’intégralité des données hébergées par Youtube pendant la première décennie du service. C’est tout l’objet du partenariat noué avec Amazon Web Services (AWS) qui a mis à la disposition des chercheurs un cluster de 2,18 millions de vCPUs pour mener à bien ce travail de titan.
« Le projet IndexThePlanet est en fait le successeur d’un premier travail de recherche mené en commun avec une équipe internationale, le projet Serratus, qui a permis d’identifier de nouvelles espèces de coronavirus et d’autres virus à ARN », note Rayan Chikhi, chercheur en bio-informatique au sein de l’Institut Pasteur. Celui-ci a permis de cartographier dix fois plus de espèces qu’auparavant, pour un total de l’ordre de 3 pétaoctets de données analysées.
« Forts de cette première réussite, nous avons décidé d’aller plus loin en élargissant le spectre à l’ensemble des virus présents sur terre, en analysant l’ADN de l’intégralité du monde vivant connu. Naturellement, cela représente un défi considérable en termes de puissance de calcul puisqu’il s’agissait cette fois de traiter un volume de données plus de six fois supérieur à celui du projet Serratus. »
Solution
Créer un moteur de recherche de l’ADN
Pour mener à bien leurs recherches, les équipes de l’Institut Pasteur ont eu accès à une base de données mondiale, stockée et mise à disposition de la communauté scientifique par AWS et son programme Registry of Open Data. Celle-ci contient les données de séquençage de l’ensemble des espèces vivantes recensées sur Terre. Malgré leur intérêt scientifique, ces données restent encore non structurées, ce qui rend leur exploration extrêmement fastidieuse.
Le projet IndexThePlanet repose donc sur deux phases distinctes : tout d’abord « l’analyse globale » de cette base de données afin de la rendre lisible et exploitable, et dans un second temps la mise à disposition d’un moteur de recherche capable d’évoluer de façon rapide et efficace dans l’index ainsi créé. Ce moteur de recherche doit être mis en place à l’horizon 2026.
« Pour bien comprendre l’enjeu de nos travaux, il faut considérer que cette base est une sorte d’immense bibliothèque, mais dans laquelle toutes les pages de tous les livres auraient été dispersées. L’enjeu d’IndexThePlanet, c’est de redonner de la cohérence à ces données en classant méthodiquement l’ensemble des fragments d’ADN pour les reconstituer à la fois à l’échelle d’un être vivant, mais également en prenant en compte son environnement. Il s’agit d’un travail monumental, qui doit bénéficier à terme à l’ensemble de la communauté de la recherche biologique. » ajoute le chercheur.
2,18 millions de vCPUs mobilisés
Un accompagnement technique de la part d’AWS
Faciliter la création des traitements de demain
Le projet IndexThePlanet a ainsi permis de réaliser deux jeux de données : l’un, complet, de 2.2 pétaoctets ; l’autre plus compact d’environ 400 téraoctets qui servira de base au futur moteur de recherche génomique. Il permettra de connaître avec précision l’entièreté des virus, puis des bactéries, présents dans la base de données mondiale. Un succès que tempère toutefois Rayan Chikhi : « cette base reste encore largement incomplète au regard de la diversité terrestre et, malgré son succès, ce projet de recherche ne permettra de passer que de 0,01 à 0,1% de virus connus. Mais la progression reste considérable à l’échelle des connaissances actuelles ».
A terme, IndexThePlanet pourra servir de base à un système dédié à la surveillance mondiale de l’apparition de pandémies. Dès sa découverte dans un hôpital, une souche pourra être comparée avec l’entièreté du matériel génétique de la planète, ce qui fera gagner un temps précieux à la recherche de traitements et vaccins, sauvant ainsi potentiellement des dizaines de milliers de vies humaines.
Diagramme d'architecture
Services AWS utilisés
Témoignages de réussite des clients AWS
Les organisations de toutes tailles utilisent AWS pour accroître leur agilité, réduire les coûts et accélérer l'innovation dans le cloud.