Témoignages de clients/Sciences de la vie

2023
Logo BioNtech

BioNTech multiplie par 500 la vitesse de traitement des données pour les flux de travail protéomiques grâce à AWS

Découvrez comment BioNTech a accéléré le traitement des données de spectrométrie de masse à l’aide de flux de travail parallélisés pour diviser le temps de traitement par 500.

50 % à 75 %

de réduction des temps de recherche de fichiers

Réduit de manière significative

le coût des instances de calcul

Des centaines de recherches

de données exécutées simultanément

Amélioration

de la productivité des scientifiques tout en maintenant une sécurité des données renforcée

Augmentation

de l’accessibilité et la réutilisation des données dans l’organisation

Présentation

Basée en Allemagne, BioNTech est une société mondiale spécialisée dans le développement d’immunothérapies et de vaccins, tels que le vaccin Pfizer-BioNTech COVID-19, permettant de lutter contre le cancer et les maladies infectieuses. La spectrométrie de masse (MS) est une technologie puissante permettant d’identifier directement les peptides liés aux molécules d’antigène leucocytaire humain (HLA) à partir de tissus tumoraux ou de lignées cellulaires dérivés de patients. Ces immunopeptidomes HLA peuvent être interrogés en tant que source de découverte d’antigènes pour les thérapies cellulaires et utilisés pour entraîner des modèles de machine learning afin d’éclairer le développement de vaccins. 

BioNTech avait pour objectif d’améliorer encore ses flux de travail de stockage, d’organisation et de traitement de téraoctets de données MS, afin de les rendre plus efficaces et évolutifs. Elle a décidé de migrer son logiciel MS et son stockage de données sur site vers Amazon Web Services (AWS), permettant ainsi une gestion de pointe évolutive et sécurisée. Aujourd’hui, BioNTech a accéléré ses délais d’analyse et a permis aux chercheurs de partager et de collaborer plus facilement sur les données MS à l’aide d’AWS Storage Gateway, un service qui fournit aux applications sur site un accès à un stockage cloud pratiquement illimité.

Young female tech or scientist performs protein assay

Opportunité | Utilisation d’AWS Storage Gateway pour rationaliser et accélérer encore le traitement des données de spectrométrie de masse de BioNTech

La spectrométrie de masse est une méthodologie puissante pour l’immunopeptidomique, car elle permet de détecter et d’identifier des milliers de peptides uniques liés au HLA en une seule analyse de tissus et de lignées cellulaires cliniquement pertinents. L’ensemble de données brutes produit en une seule acquisition est une vaste collection de spectres qui peuvent faire l’objet de recherches dans une base de données de protéomes de référence pour identifier des peptides et des protéines. Dans les flux de travail protéomiques et immunopeptidomiques, les progiciels, tels que le logiciel Spectrum Mill MS Proteomics, jouent un rôle essentiel pour le traitement et l’analyse des grands volumes de données MS qui sont régulièrement collectés. 

Jusqu’en 2022, l’entreprise exploitait ce logiciel sur des serveurs locaux. Les scientifiques devaient déplacer les données manuellement depuis les ordinateurs des instruments vers des postes de travail locaux exécutant Spectrum Mill, et ces appareils se remplissaient rapidement, ajoutant des opérations d’archivage des données. « Le total de nos données s’élevait facilement à 10 à 15 téraoctets, et leur transfert vers l’appareil sur site était long et difficile », explique Akhil Chaudhary, ingénieur des données chez BioNTech. « Alors que nos activités de recherche se développaient, notre collecte de données MS augmentait également de manière significative », explique Michael McCarthy, architecte de solutions chez BioNTech. « Le matériel local ne pouvait plus supporter notre taille. » 

Pour accélérer le traitement des données et accéder aux résultats interprétés, l’équipe de biologie computationnelle de BioNTech avait besoin d’un moyen de traiter des centaines de demandes simultanément avec différents paramètres de recherche et bases de données de séquences de protéines, dans le cadre de ses efforts visant à maximiser les informations sur les peptides et les protéines pour de nouvelles découvertes. Le département a contacté l’équipe BioNData, un groupe central de données et d’analyses au sein de l’entreprise, pour créer des outils permettant de mettre horizontalement à l’échelle les capacités de traitement des données. L’équipe a choisi AWS pour créer un modèle de données de laboratoire hybride et développer des API à mise à l’échelle horizontale. « Aux États-Unis, nous utilisons AWS avec succès depuis longtemps dans nos produits », déclare Michael McCarthy. « C’était le choix naturel. »

kr_quotemark

Sur AWS, nos scientifiques génèrent et partagent beaucoup plus de données dans le but de trouver des traitements efficaces, ciblés et personnalisés pour les patients. L’imagination est la seule limite, et je n’ai encore rien trouvé que je n’aurais pas pu créer dans AWS. »

Michael McCarthy
Architecte de solutions, BioNTech

Solution | Accélération massive du traitement des données à l’aide de flux de travail parallélisés

Au cours de la première phase, l’objectif de BioNTech était de pouvoir transférer les données de manière fluide, des ordinateurs des instruments MS vers le cloud et d’héberger Spectrum Mill sur AWS. La deuxième phase a consisté à créer un système permettant d’exécuter simultanément les demandes de recherche. 

Pour transférer les données brutes MS vers le cloud, BioNTech a installé l’agent AWS Storage Gateway sur chaque ordinateur d’instrument. Après l’acquisition, les données brutes MS sont rapidement et automatiquement transférées vers Amazon Simple Storage Service (Amazon S3), un service de stockage d’objets conçu pour récupérer n’importe quelle quantité de données, où que vous soyez. « La vitesse est extrêmement rapide. Un fichier de 5 Go ne prend que 5 à 10 secondes pour apparaître sur Amazon S3 », explique Akhil Chaudhary. Avec de nombreux instruments générant de grands jeux de données, ce pipeline de données MS permet une migration plus efficace des données vers une localisation centralisée, en vue d’en faciliter l’accès pour le traitement et l’archivage. 

L’équipe de biologie computationnelle de BioNTech a rapidement adopté le nouveau flux de travail. « Tout le monde utilise le système basé sur le cloud, et les chercheurs le trouvent beaucoup plus simple », explique Michael McCarthy. « Nous automatisons la gestion des données dans AWS, ce qui permet aux scientifiques de se concentrer sur la science. » 

Ensuite, l’équipe a installé Spectrum Mill sur Amazon Elastic Compute Cloud (Amazon EC2), qui fournit une capacité de calcul sécurisée et redimensionnable pour pratiquement toutes les charges de travail. « En exécutant Spectrum Mill sur le cloud, nous avons réduit les temps de recherche individuels de 50 à 75 % », explique Akhil Chaudhary. De plus, BioNTech utilise des instances Spot Amazon EC2, qui peuvent exécuter des charges de travail tolérantes aux pannes dont le coût peut être jusqu’à 90 % inférieur aux tarifs à la demande. Comme l’entreprise ne paie que le temps d’utilisation des instances, elle a réduit ses coûts de calcul de manière significative. 

Pour augmenter le nombre de flux de travail qu’elle peut exécuter simultanément, l’équipe utilise des Amazon Machine Images, qui fournissent les informations nécessaires au lancement d’une instance, et Amazon EC2 Auto Scaling, qui peut ajouter ou supprimer de la capacité de calcul pour répondre à l’évolution de la demande. « À présent, nous exécutons nos recherches de 50 à 75 % plus rapidement et, avec Amazon EC2 Auto Scaling, nous pouvons exécuter des centaines d’instances en parallèle et ainsi attendre une vitesse de traitement des données jusqu’à 500 fois supérieure », explique McCarthy. 

BioNTech gère les flux de travail de Spectrum Mill à l’aide d’Amazon Simple Queue Service (Amazon SQS), un service de mise en file d’attente de messages entièrement géré. Et l’entreprise utilise Amazon API Gateway, un service permettant de créer, de gérer et de sécuriser des API à n’importe quelle échelle, pour exécuter des recherches Spectrum Mill. Les données sont ensuite extraites d’un entrepôt de données sur Amazon Redshift, qui offre un excellent rapport qualité-prix pour l’entreposage de données dans le cloud. Ces jeux de données sont utilisés par les équipes scientifiques pour identifier des cibles thérapeutiques et créer des algorithmes d’intelligence artificielle pour la conception de vaccins. 

L’équipe connecte les résultats traités aux consommateurs de données de l’entreprise grâce à data.all, un outil open source permettant de partager des jeux de données entre des comptes AWS. Les chercheurs n’ont donc plus besoin de consacrer du temps à la gestion des données. « Sur AWS, nos scientifiques génèrent et partagent beaucoup plus de données dans le but de trouver des traitements efficaces, ciblés et personnalisés pour les patients », explique Michael McCarthy.

Résultat | Vitesse et capacité de mise à l’échelle étendues à un plus grand nombre de flux de travail

BioNTech a rapidement constaté les avantages de ses nouveaux flux de travail sur AWS. « Nous avons pu refaire tous les travaux des 7 dernières années en 60 heures pour une fraction du prix », explique Akhil Chaudhary. Dans sa prochaine phase, l’équipe cherche à améliorer et à automatiser les outils d’analyse par spectrométrie de masse, afin de réduire le taux de fausses découvertes de peptides. Elle crée également un wrapper graphique autour de son API, afin que toutes les équipes de BioNTech puissent bénéficier de l’API dans leurs flux de travail quotidiens.

« Le projet Spectrum Mill n’est que le premier d’une longue série que nous planifions », déclare Michael McCarthy. « Ce projet a inspiré la certitude que nous pouvons résoudre des problèmes similaires pour nos équipes mondiales. L’imagination est la seule limite, et je n’ai encore rien trouvé que je n’aurais pas pu créer dans AWS. »

À propos de BioNTech

BioNTech est une société mondiale de recherche et développement en immunothérapie qui crée et fabrique des immunothérapies actives et réalise des essais cliniques de traitements et de vaccins contre le cancer et d’autres maladies.

Services AWS utilisés

AWS Storage Gateway

AWS Storage Gateway est un ensemble de services de stockage cloud hybride qui offre un accès sur site à un stockage dans le cloud pratiquement illimité.

En savoir plus »

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) offre la plateforme de calcul la plus vaste et la plus complète, avec plus de 750 instances et la possibilité de choisir parmi les processeurs, systèmes de stockage, réseaux, systèmes d’exploitation et modèles d’achat les plus récents pour vous aider à répondre au mieux aux besoins de votre charge de travail. 

En savoir plus »

Amazon S3

Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets qui offre une capacité de mise à l'échelle, une disponibilité des données, une sécurité et des performances de pointe. 

En savoir plus »

Amazon SQS

Amazon Simple Queue Service (Amazon SQS) vous permet d’envoyer, de stocker et de recevoir des messages entre des composants logiciels, quel que soit le volume, sans perdre de messages ni avoir besoin que d’autres services soient disponibles.

En savoir plus »

Plus de témoignages de clients du secteur des sciences de la vie

Aucun élément trouvé 

1

Démarrer

Les organisations de toutes tailles et de tous secteurs transforment leur activité et exécutent leurs missions au quotidien à l'aide d'AWS. Contactez nos experts et démarrez votre transition vers AWS dès aujourd'hui.