Les innovateurs en IA canadiens
À l’origine des percées ici et à l’international
Logan : percer les secrets de la nature pour lutter contre la pollution par les microplastiques
La pollution par les microplastiques est un problème d’origine humaine. Et si la solution existait déjà dans la nature, prête à être révélée grâce à l’IA?
C’est la mission qu’Artem Babaian a confiée à son équipe de recherche.
Rencontrez Artem Babaian
Professeur adjoint en génétique moléculaire, Donnelly Centre de l’Université de Toronto
Lorsqu’Artem Babaian se rend au bord du lac Ontario, il ne sait plus s’il faut profiter d’un moment de calme ou s’il faut plutôt s’inquiéter d’un problème à l’échelle mondiale qui est dissimulé sous la surface du lac.
« En raison de la proximité du lac avec la ville de Toronto, on observe des concentrations élevées de microplastiques dans les poissons et dans l’ensemble des organismes vivants du lac Ontario », explique-t-il.
« Les microplastiques se retrouvent dans l’eau, dans notre alimentation et au final, dans notre corps. »
Ce qui était autrefois ignoré est devenu l’un des défis environnementaux les plus répandus de notre époque. Pourtant, Babaian, professeur adjoint en génétique moléculaire au Donnelly Centre de l’Université de Toronto et son équipe au laboratoire des formes de vie à base d'ARN sont convaincus que la nature détient la solution.
« On considère les microplastiques comme un problème très synthétique, mais l’ironie, c’est que la solution pourrait déjà se trouver dans la nature. »
Un problème à l’échelle planétaire exige une solution à l’échelle planétaire
En tant que chercheur, M. Babaian a compris pourquoi cette découverte n’avait pas été faite plus tôt.
Depuis des décennies, des scientifiques du monde entier collectent des échantillons d’ADN et d’ARN, générant une quantité exceptionnelle de données de séquençage, déposées dans des bases de données ouvertes.
« Il existe plus de 39 millions d’ensembles de données de séquençage qui contiennent les réponses aux problèmes les plus complexes de notre planète », souligne M. Babaian.
Mais le volume même de ces données est devenu un obstacle, créant un véritable goulot d’étranglement.
« La génomique adhère depuis longtemps aux principes de la science ouverte », poursuit-il. « Mais l’accès seul ne suffit pas. Ce qu’il faut se demander, c’est comment trouver la bonne enzyme ? »
Avec une bibliothèque de données si vaste qu’aucun ordinateur unique ne pouvait la parcourir—et que très peu pouvaient même y accéder—M. Babaian et son équipe ont entrepris de concevoir un outil permettant aux chercheurs de rechercher et d’interpréter les données ADN à l’échelle mondiale.
Démocratiser l’accès aux données génomiques
Ils ont développé un logiciel nommé Logan, un index consultable et open source des données publiques de séquençage à l’échelle mondiale. En pratique, il s’agit d’un moteur de recherche de l’ADN permettant d’explorer la bibliothèque génétique de la nature.
« Logan est la plus grande base de données de séquences biologiques au monde—il permet de révéler des enzymes qui existent déjà dans la nature », explique M. Babaian.
La création de Logan a nécessité une infrastructure bien au-delà des capacités informatiques traditionnelles. Pour traiter et indexer les données, l’équipe de Babaian a mobilisé simultanément 2,2 millions d’UCT pendant plusieurs jours sur Amazon Web Services (AWS). Ce niveau de parallélisme leur a permis d’accomplir en 6 jours ce qui aurait auparavant pris des années.
Plus important encore, l’équipe a aussi optimisé ses flux de travail infonuagiques sur AWS afin de réduire le coût de traitement de chaque ensemble de données, passant de plusieurs dollars à quelques cents—éliminant ainsi la nécessité de sélectionner des sous-ensembles et rendant possible l’indexation de l’ensemble des données publiques de séquençage mondiales.
« Nous avons fait passer le coût par ensemble de données de deux ou trois dollars à environ cinq cents », précise M. Babaian. « Cela signifie que nous n’avions plus à nous limiter à des sous-ensembles — nous pouvions tout analyser et rendre ces données librement accessibles pour tous. »
Mais indexer les données ne représentait que la moitié du défi—leur donner un sens exigeait un autre type d’intelligence.
Découverte d’enzymes dégradant le plastique grâce à l’IA
Avec Logan en place, l’IA devient le moteur de la découverte scientifique.
Une fois que Logan a identifié des protéines capables de dégrader le plastique, l’équipe utilise les modèles d’IA d’Amazon Bedrock pour obtenir davantage d’information sur les environnements où ces séquences protéiques sont présentes. Cela permet d’identifier plus rapidement les meilleures séquences en fonction de conditions environnementales précises, d’accélérer les tests et de déterminer si elles peuvent réellement contribuer à la dégradation des microplastiques.
Lors d’un projet pilote initial, l’équipe a recherché des enzymes capables de décomposer le PET (polyéthylène téréphtalate), un plastique couramment utilisé dans les bouteilles d’eau.
« Ces enzymes sont cachées dans des bactéries, des champignons, des insectes et d’autres organismes », explique-t-il. « Ce que nous avons découvert lors de ce premier projet pilote surpassait tout ce qui avait été conçu en laboratoire. »
« Nous avons identifié plus d’un milliard de variantes d’enzymes dégradant le plastique en à peine dix heures », ajoute M. Babaian. « L’IA nous permet de cibler les découvertes qui comptent vraiment. »
Vers une science ouverte et équitable
La vision à long terme de M. Babaian ne se limite pas aux avancées scientifiques, mais inclut aussi l’accessibilité. Son équipe travaille à synthétiser et à tester les enzymes les plus prometteuses, avec l’objectif de les déployer dans des systèmes réels, comme le traitement de l’eau. Parallèlement, il tient à maintenir Logan ouvert et accessible à la communauté scientifique mondiale.
« Le registre de données ouvertes d’AWS nous permet de démocratiser l’accès aux données de Logan et de catalyser les découvertes d’autres équipes de recherche. Notre objectif est de garantir un accès équitable aux données génétiques de l’humanité. »
En combinant la science ouverte, l’infrastructure infonuagique et l’IA, Logan incarne un nouveau modèle de découverte dans lequel l’ensemble des données de la nature devient un sujet d’étude et où ses solutions deviennent accessibles.
Si la dégradation du plastique constitue une preuve de concept puissante, le potentiel de Logan dépasse largement les applications environnementales.
« Nous commençons avec les microplastiques, mais ce n’est qu’un début », conclut M. Babaian.
« Partout où la vie a trouvé des moyens de réaliser une chimie complexe, nous avons désormais une façon de les découvrir et d’aider à transformer notre monde pour le mieux. »
Découvrez nos autres innovateurs
Did you find what you were looking for today?
Let us know so we can improve the quality of the content on our pages