Témoignages de clients / Sciences de la vie / France
2024
L’Institut Pasteur et AWS analysent l'ADN mondial, à partir d’une base de données publique
Institut Pasteur, a leading French virology research center, processed 20 petabytes of DNA data in record 30 hours, leveraging AWS Batch over a cluster of 2.18M AWS Graviton cores.
30 heures
Réduire le temps de calcul requis de 30 millions d’heures vCPU en 30 heures, avec 2,18 millions de vCPUs mobilisés en pic
20 pétaoctets
Première utilisation exhaustive d’une base de données ADN de 20 pétaoctets
l'expertise d'AWS
Mise à disposition des ressources techniques et expertise d’accompagnement d’AWS
Présentation
Moins de 0,01% des virus existants ont été identifiés à ce jour. Et parmi ces innombrables espèces encore méconnues se cache peut-être le responsable d’une pandémie à venir. Au lendemain de la crise de Covid-19, et afin d’identifier plus facilement les prochaines menaces, un projet de recherche « IndexThePlanet » à l’Institut Pasteur a donc entrepris un travail d’analyse et de cartographie de l’ADN de l’ensemble du monde vivant, à partir d’une base de données publique. Mais pour traiter un tel volume de données, le projet a dû mettre sur pied une infrastructure capable de relever le défi représenté par les quelques 20 pétaoctets à traiter. C’est tout l’objet du partenariat noué avec Amazon Web Services (AWS) qui a mis à la disposition des chercheurs un cluster de plus de 2 millions de vCPUs pour mener à bien ce travail de titan.
Opportunité
Seuls 0,01% des virus existants ont été identifiés à ce jour, et leur nombre total est encore très incertain. Parmi ces innombrables espèces encore méconnues se cache peut-être le responsable d’une pandémie à venir. Au lendemain de la crise de Covid-19, une équipe de recherche de l’Institut Pasteur a donc entrepris un travail d’analyse et de cartographie de l’ADN de l’ensemble du vivant afin de faciliter l’identification des prochaines menaces.
Pour traiter un tel volume de données, l’équipe a mis en place une infrastructure capable de relever le défi représenté par 20 pétaoctets de données ADN à traiter. À titre de comparaison, cela correspond à peu près à l’intégralité des données hébergées par Youtube pendant la première décennie du service. C’est tout l’objet du partenariat noué avec Amazon Web Services (AWS) qui a mis à la disposition des chercheurs un cluster de 2,18 millions de vCPUs pour mener à bien ce travail de titan.
« Le projet IndexThePlanet est en fait le successeur d’un premier travail de recherche mené en commun avec une équipe internationale, le projet Serratus, qui a permis d’identifier de nouvelles espèces de coronavirus et d’autres virus à ARN », note Rayan Chikhi, chercheur en bio-informatique au sein de l’Institut Pasteur. Celui-ci a permis de cartographier dix fois plus de espèces qu’auparavant, pour un total de l’ordre de 3 pétaoctets de données analysées. « Forts de cette première réussite, nous avons décidé d’aller plus loin en élargissant le spectre à l’ensemble des virus présents sur terre, en analysant l’ADN de l’intégralité du monde vivant connu. Naturellement, cela représente un défi considérable en termes de puissance de calcul puisqu’il s’agissait cette fois de traiter un volume de données plus de six fois supérieur à celui du projet Serratus. »
AWS a mobilisé des ressources considérables, qui ont atteint 2,18 millions de vCPUs en pointe pour les instances Graviton. "
"Nous avons estimé qu’il aurait fallu près de 30 millions d’heures, soit 3400 ans, à un ordinateur de bureau pour réaliser un tel calcul. "
Solution
Créer un moteur de recherche de l’ADN
Pour mener à bien leurs recherches, les équipes de l’Institut Pasteur ont eu accès à une base de données mondiale, stockée et mise à disposition de la communauté scientifique par AWS et son programme Registry of Open Data. Celle-ci contient les données de séquençage de l’ensemble des espèces vivantes recensées sur Terre. Malgré leur intérêt scientifique, ces données restent encore non structurées, ce qui rend leur exploration extrêmement fastidieuse. Le projet IndexThePlanet repose donc sur deux phases distinctes : tout d’abord « l’analyse globale » de cette base de données afin de la rendre lisible et exploitable, et dans un second temps la mise à disposition d’un moteur de recherche capable d’évoluer de façon rapide et efficace dans l’index ainsi créé. Ce moteur de recherche doit être mis en place à l’horizon 2026.
« Pour bien comprendre l’enjeu de nos travaux, il faut considérer que cette base est une sorte d’immense bibliothèque, mais dans laquelle toutes les pages de tous les livres auraient été dispersées. L’enjeu d’IndexThePlanet, c’est de redonner de la cohérence à ces données en classant méthodiquement l’ensemble des fragments d’ADN pour les reconstituer à la fois à l’échelle d’un être vivant, mais également en prenant en compte son environnement. Il s’agit d’un travail monumental, qui doit bénéficier à terme à l’ensemble de la communauté de la recherche biologique. » ajoute le chercheur.
2,18 millions de vCPUs mobilisés
L’Institut Pasteur s’est donc tourné vers AWS pour mettre en place une infrastructure capable de relever le défi de ce traitement de masse. « La préparation des opérations a duré près d’un an, pour parvenir in fine à un batch de calcul de 30 heures seulement, sourit Rayan Chikhi. Mais quel batch ! Au cours du traitement, AWS a mobilisé des ressources considérables, qui ont atteint 2,18 millions de vCPUs en pointe pour les instances AWS Graviton. A titre de comparaison, nous avons estimé qu’il aurait fallu près de 30 millions d’heures, soit 3400 ans, à un ordinateur de bureau pour réaliser un tel calcul. »
Un accompagnement technique de la part d’AWS
« Pour accompagner au mieux les équipes de l’Institut Pasteur, nous avons fait appel à toutes les ressources que nous pouvions mobiliser, précise Dorian Schaal chez Amazon Web Services, qui a accompagné le chercheur durant toute la durée du projet. Notamment en programmant ces calculs durant le weekend afin d’accéder à des ressources moins sollicitées, la taille colossale des ressources ayant mobilisé une partie conséquente des ressources disponibles. Et d’ajouter : « La réussite de ce projet est une grande fierté pour nos équipes, et va contribuer à enrichir la base de données Open Data qu’AWS met gracieusement à la disposition de la communauté scientifique mondiale. »
Faciliter la création des traitements de demain
Le projet IndexThePlanet a ainsi permis de réaliser deux jeux de données : l’un, complet, de 2.2 pétaoctets ; l’autre plus compact d’environ 400 téraoctets qui servira de base au futur moteur de recherche génomique. Il permettra de connaître avec précision l’entièreté des virus, puis des bactéries, présents dans la base de données mondiale. Un succès que tempère toutefois Rayan Chikhi : « cette base reste encore largement incomplète au regard de la diversité terrestre et, malgré son succès, ce projet de recherche ne permettra de passer que de 0,01 à 0,1% de virus connus. Mais la progression reste considérable à l’échelle des connaissances actuelles ». A terme, IndexThePlanet pourra servir de base à un système dédié à la surveillance mondiale de l’apparition de pandémies. Dès sa découverte dans un hôpital, une souche pourra être comparée avec l’entièreté du matériel génétique de la planète, ce qui fera gagner un temps précieux à la recherche de traitements et vaccins, sauvant ainsi potentiellement des dizaines de milliers de vies humaines.
Diagramme d'architecture
Outcome | Nunc tincidunt laoreet nunc sed mattis
À propos de l'entreprise
L'Institut Pasteur est un centre de recherche biomédical français de renommée mondiale, fondé par Louis Pasteur en 1887, qui mène des travaux scientifiques de pointe sur les maladies infectieuses et la santé publique.
Services AWS utilisés
Amazon EC2 Spot Instance
Les instances Spot Amazon EC2 vous permettent de tirer parti de la capacité EC2 inutilisée dans le cloud AWS et sont disponibles avec une réduction allant jusqu'à 90 % par rapport aux tarifs à la demande.
AWS Graviton
AWS Graviton est une gamme de processeurs conçus pour offrir le meilleur rapport prix/performances pour vos charges de travail cloud exécutées dans Amazon Elastic Compute Cloud (Amazon EC2).
AWS Batch
AWS Batch est un service de traitement par lots entièrement géré qui planifie, programme et exécute vos charges de travail par lots de ML, de simulation et d'analyse conteneurisées sur la gamme complète des offres de calcul AWS, telles qu'Amazon ECS, Amazon EKS, AWS Fargate et les instances Spot ou à la demande.
Amazon S3
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets qui offre une capacité de mise à l'échelle, une disponibilité des données, une sécurité et des performances de pointe.
Témoignages de réussite des clients AWS
Démarrer
Les organisations de toutes tailles et de tous secteurs transforment leur activité et exécutent leurs missions au quotidien à l'aide d'AWS. Contactez nos experts et démarrez votre transition vers AWS dès aujourd'hui.