Projet AWS Pioneers

L’innovation européenne racontée par ceux qui l’ont construite

L’Institut Pasteur construit une base de données de recherche intégrant l’ensemble des organismes vivants

Lors de la pandémie mondiale de Covid-19, des scientifiques ont entamé ce que M. Rayan Chikhi, directeur de recherche à l'Institut Pasteur, décrit comme « un projet incroyablement ambitieux ».

Leur objectif était non seulement d’identifier de nouvelles espèces de coronavirus mais également, dans le cadre d’un vaste projet de recherche intitulé « projet Serratus », d’identifier d’autres virus à ARN (responsables de nombreuses maladies).

À l’issue de cette pandémie, dont l’urgence sanitaire mondiale a été levée en mai 2023 par l’Organisation mondiale de la santé (OMS), les scientifiques de l’Institut Pasteur ont perçu le potentiel d’extension de ces travaux à d’autres pistes de recherche.

« Nous avons réalisé qu’en utilisant les mêmes techniques, nous étions en mesure d’aider non seulement la communauté des virologues, mais aussi d’apporter des connaissances plus vastes en biologie et de soutenir la communauté scientifique de manière plus large. Nous pouvons ainsi analyser toutes les données de séquençage des êtres vivants, en nous concentrant sur les virus mais aussi sur les bactéries (ou autres micro-organismes), les humains, les insectes et autres animaux. Il existe une vaste quantité de données génétiques, mais elles sont très difficilement exploitables dans leur totalité. Notre objectif est de les rendre accessibles à toute la communauté scientifique », explique M. Chikhi.

Soutenu par l’Union européenne, le projet a été baptisé IndexthePlanet.

Rencontre avec Rayan Chikhi

Chercheur, Institut Pasteur

Deux étapes

« À ce jour, seuls 0,01 % des virus existants ont été identifiés, et parmi l’immense majorité encore inconnue se trouve peut-être le responsable d’une future pandémie. »

Cartographier l’ADN de tous les organismes vivants revêt un défi énorme - le volume de données impliqué est équivalent à tous les téléchargements réalisés sur YouTube au cours de sa première décennie d’existence, et il est cinq fois supérieur au volume de données traité dans le cadre de Serratus.

AWS avait déjà joué un rôle majeur pour Serratus en stockant près de 20 pétaoctets de données dans un référentiel – public et ouvert – d’échantillons d’ADN et ARN collectés, appelé Sequence Read Archive (SRA). À titre d’exemple, chaque fois qu’un scientifique collecte des feuilles mortes dans la forêt amazonienne ou des excréments d’éléphants de mer dans l’Antarctique, ces données se retrouvent dans le domaine public par l’intermédiaire de la base de données SRA.

IndexthePlanet comprend deux étapes: la première consiste à rendre les données ouvertes déjà stockées dans le SRA plus accessibles et compressées, en divisant leur taille par 100. La deuxième consiste à créer un gigantesque moteur de recherche sur l’ADN, aujourd’hui disponible à l’adresse https://logan-search.org.

AWS a fourni une assistance étendue ainsi qu’un soutien technique, administratif et financier. Comme l’explique M. Chikhi, « ce projet audacieux a été rendu possible par deux choses. D’une part, l’immense quantité de données, des millions de gigaoctets, qui ont été récemment transférées sur AWS. Nous avons ensuite eu besoin de ressources pour accéder à ces données. Cela a été rendu possible grâce à deux subventions importantes, l’une accordée par le Conseil Européen de la Recherche, l’autre par AWS. »

Ce projet est l’une des premières initiatives d’AWS pour soutenir la recherche biologique à grande échelle, impliquant une immense puissance de calcul.

« La quantité de données à traiter était de 20 pétaoctets. Il est important de noter qu’un seul ordinateur peut contenir un téraoctet de données environ. Si nous avions disposé d’un seul ordinateur de bureau pour effectuer cette analyse, il nous aurait fallu environ 3 400 ans pour la mener à bien. Mais grâce à cette collaboration, nous disposions de 70 000 ordinateurs totalisant deux millions de processeurs, ce qui nous a permis d’effectuer l’analyse en 30 heures ».

Un projet pionnier

Nous étions, dit M. Chikhi, « en territoire inconnu ».

« Ce projet ouvre une nouvelle ère dans laquelle les données génétiques associées à la technologie du Cloud et prochainement à l’IA, révolutionneront le domaine de la biologie et de la santé publique mondiale. »

« À date, peu d’initiatives en informatique ont été menées à une aussi grande échelle dans le monde pour la biologie ».

L’un des premiers critères de réussite sera la découverte de nouveaux virus, mais cette base de données est avant tout un outil pour préserver le patrimoine génétique de la Terre et de le rendre accessible à tous les laboratoires de recherche. Ce projet, dont l’ampleur est inégalée, reflète une ambition considérable, et il n’aurait pas pu aboutir sans le partenariat avec AWS dont l’immense puissance de calcul est, selon M. Chikhi, sur le point de « transformer la biologie ».

Le projet a établi deux ensembles de données : un ensemble complet de 2,2 pétaoctets et un autre plus compact d’environ 400 téraoctets. À terme, IndexThePlanet pourrait servir de socle à un système dédié à la surveillance mondiale d’émergence des pathogènes et des futures pandémies. Par exemple, dès la découverte d’une souche virale ou bactériologique dans un hôpital, celle-ci pourrait être renseignée dans la base de données et comparée à l’ensemble du matériel génétique de la planète, ce qui permettrait de gagner un temps précieux dans la recherche de traitements et de vaccins et, potentiellement, de sauver des dizaines de milliers de vies.

« Les projets de recherche nécessitant le traitement d’immenses quantités de données, peuvent être réalisés en dehors des laboratoires de biologie traditionnels. Ces données ouvertes constitueront également une ressource incroyable pour l’ensemble des chercheurs en IA à travers le monde. D’une certaine manière, la biologie entre dans une nouvelle ère », déclare M. Chikhi.

Studio Rayan Chikhi
Photo de Rayan Chikhi
Photo de Rayan Chikhi