Testimonianze dei clienti / Scienze della vita
2023
BioNTech accelera di 500 volte l'elaborazione dei dati per i flussi di lavoro di proteomica utilizzando AWS
Scopri come BioNTech ha accelerato l'elaborazione dei dati di spettrometria di massa utilizzando flussi di lavoro parallelizzati per ridurre i tempi di elaborazione di 500 volte.
Dal 50% al 75%
di riduzione dei tempi di ricerca dei file
Riduzione significativa
del costo delle istanze di calcolo
Centinaia
di ricerche di dati eseguite contemporaneamente
Miglioramento
della produttività degli scienziati mantenendo al contempo una solida sicurezza dei dati
Aumento
dell'accessibilità e della riusabilità dei dati nell'organizzazione
Panoramica
Con sede in Germania, la BioNTech è un'azienda globale specializzata nello sviluppo di immunoterapie e vaccini, come il vaccino COVID-19 Pfizer-BioNTech, per il cancro e le malattie infettive. La spettrometria di massa (MS) è una potente tecnologia per l'identificazione diretta dei peptidi legati alle molecole di antigene leucocitario umano (HLA) da tessuti o linee cellulari tumorali derivati dal paziente. Questi immunopeptidomi HLA possono essere interrogati come fonte per la scoperta di antigeni per terapie cellulari e utilizzati per addestrare modelli di machine learning al fine di orientare lo sviluppo dei vaccini.
BioNTech mirava a migliorare ulteriormente i propri flussi di lavoro per l'archiviazione, l'organizzazione e l'elaborazione di terabyte di dati MS per renderli più efficienti e scalabili. Ha deciso di migrare il suo software MS on-premises e l'archiviazione dei dati su Amazon Web Services (AWS), consentendo una gestione scalabile e sicura all'avanguardia. Ora, BioNTech ha accelerato i tempi di acquisizione delle informazioni e ha reso più semplice per i ricercatori condividere e collaborare sui dati MS utilizzando Gateway di archiviazione AWS, un servizio che fornisce alle applicazioni on-premises l'accesso a uno spazio di archiviazione su cloud praticamente illimitato.
Opportunità | Utilizzo di Gateway di archiviazione AWS per semplificare e accelerare ulteriormente l'elaborazione dei dati di spettrometria di massa di BioNTech
La spettrometria di massa è una potente metodologia per l'immunopeptidomica perché può rilevare e identificare migliaia di peptidi unici legati all'HLA in un'unica analisi di tessuti e linee cellulari clinicamente rilevanti. Il set di dati grezzi prodotto in una singola acquisizione è un'ampia raccolta di spettri che possono essere ricercati in un database di proteomi di riferimento per ottenere identificazioni di peptidi e proteine. Nei flussi di lavoro di proteomica e immunopeptidomica, pacchetti software come Spectrum Mill MS Proteomics Software sono componenti fondamentali per l'elaborazione e l'analisi dei grandi volumi di dati MS che vengono raccolti regolarmente.
Fino al 2022, l'azienda eseguiva questo software su server locali. Gli scienziati dovevano spostare manualmente i dati dai computer strumentali alle workstation locali su cui era in esecuzione Spectrum Mill e questi dispositivi si riempivano rapidamente, richiedendo passaggi aggiuntivi per l'archiviazione dei dati. “I nostri dati totali erano facilmente di 10-15 terabyte e spostarli sul dispositivo on-premises richiedeva molto tempo ed era complicato”, afferma Akhil Chaudhary, data engineer presso BioNTech. “Con la crescita delle nostre attività di ricerca, anche la nostra raccolta di dati MS è aumentata in modo significativo”, afferma Michael McCarthy, solutions architect presso BioNTech. “L'hardware locale non era più in grado di supportare la nostra crescita”.
Per accelerare l'elaborazione dei dati e l'accesso ai risultati interpretati, il team di biologia computazionale di BioNTech aveva bisogno di un modo per elaborare centinaia di richieste contemporaneamente con diversi parametri di ricerca e database di sequenze proteiche allo scopo di massimizzare le informazioni raccolte su peptidi e proteine per le nuove scoperte. Il dipartimento ha contattato il team di BionData, un gruppo centrale di dati e analisi all'interno dell'azienda, per creare strumenti utili a scalare orizzontalmente le capacità di elaborazione dei dati. Il team ha scelto AWS per creare un modello ibrido di dati di laboratorio e creare API con scalabilità orizzontale. “Negli Stati Uniti, abbiamo una lunga storia riguardante l'utilizzo efficace di AWS nei prodotti”, afferma McCarthy. “È stata la scelta naturale”.
Su AWS, i nostri scienziati stanno generando e condividendo un numero esponenziale di dati con l'obiettivo di trovare terapie efficaci, mirate e personalizzate per i pazienti. È davvero l'immaginazione che ti limita e non ho ancora trovato qualcosa che non potessi creare in AWS”.
Michael McCarthy
Solutions Architect presso BioNTech
Soluzione | Accelerazione massiccia dell'elaborazione dei dati utilizzando flussi di lavoro parallelizzati
Nella prima fase, l'obiettivo di BioNTech era quello di poter spostare i dati senza problemi dai computer della strumentazione MS al cloud e ospitare Spectrum Mill su AWS. La seconda fase prevedeva la creazione di un sistema per l'esecuzione simultanea delle richieste di ricerca.
Per spostare i dati non elaborati di MS nel cloud, BioNTech ha installato l'agente Gateway di archiviazione AWS su ogni computer della strumentazione. Dopo l'acquisizione, i dati non elaborati MS vengono trasferiti rapidamente e automaticamente su Amazon Simple Storage Service (Amazon S3), un servizio di archiviazione di oggetti creato per recuperare qualsiasi quantità di dati da qualsiasi luogo. “La velocità è estremamente elevata. Sono necessari solo da 5 a 10 secondi affinché un file da 5 GB appaia in Amazon S3”, afferma Chaudhary. Con diversi strumenti che generano set di dati di grandi dimensioni, questa pipeline di dati MS consente una migrazione più efficiente dei dati verso una localizzazione centralizzata che facilita l'accesso per l'elaborazione e l'archiviazione.
Il team di biologia computazionale di BioNTech ha adottato rapidamente il nuovo flusso di lavoro. “Tutti utilizzano il sistema basato su cloud e i ricercatori lo trovano molto più semplice”, afferma McCarthy. “Automatizziamo la gestione dei dati in AWS, permettendo agli scienziati di concentrarsi sulla scienza”.
Quindi, il team ha installato Spectrum Mill su Amazon Elastic Compute Cloud (Amazon EC2), che fornisce una capacità di calcolo sicura e ridimensionabile per praticamente qualsiasi carico di lavoro. “Eseguendo Spectrum Mill sul cloud, abbiamo ridotto i singoli tempi di ricerca del 50-75%”, afferma Chaudhary. Inoltre, BioNTech esegue le istanze spot di Amazon EC2, che possono eseguire carichi di lavoro con tolleranza ai guasti con uno risparmio fino al 90% rispetto ai prezzi on demand. Poiché l'azienda paga solo per il tempo di utilizzo delle istanze, ha ridotto significativamente i costi di calcolo.
Per scalare il numero di flussi di lavoro che può essere eseguito contemporaneamente, il team utilizza Amazon Machine Images, che fornisce le informazioni necessarie per avviare un'istanza, e Amazon EC2 Auto Scaling, che può aggiungere o rimuovere capacità di calcolo per soddisfare la domanda in continua evoluzione. “Ora eseguiamo le nostre ricerche più velocemente del 50-75% e, con Amazon EC2 Auto Scaling, possiamo eseguire centinaia di istanze in parallelo, accelerando enormemente l'elaborazione dei dati fino a 500 volte”, afferma McCarthy.
BioNTech gestisce i flussi di lavoro di Spectrum Mill utilizzando Amazon Simple Queue Service (Amazon SQS), un servizio di accodamento dei messaggi completamente gestito. Inoltre, l'azienda utilizza Gateway Amazon API, un servizio per creare, mantenere e proteggere le API su qualsiasi scala, per eseguire le ricerche di Spectrum Mill. Quindi, estrae i dati da un data warehouse su Amazon Redshift che offre eccellenti prestazioni di prezzo per il data warehousing nel cloud. Questi set di dati vengono utilizzati dai team scientifici per identificare obiettivi terapeutici e creare algoritmi di intelligenza artificiale per la progettazione di vaccini.
Il team collega i risultati elaborati con i consumatori di dati in tutta l'azienda con data.all, uno strumento open source per la condivisione di set di dati tra account AWS. Di conseguenza, i ricercatori non devono più dedicare tempo alla gestione dei dati. “Su AWS, i nostri scienziati stanno generando e condividendo un numero esponenziale di dati con l'obiettivo di trovare terapie efficaci, mirate e personalizzate per i pazienti”, afferma McCarthy.
Risultato | Espansione della velocità e della scalabilità verso più flussi di lavoro
BioNTech ha subito notato i vantaggi dei suoi nuovi flussi di lavoro su AWS. “Potremmo rifare tutto il lavoro degli ultimi sette anni in 60 ore a una frazione del prezzo”, afferma Chaudhary. Nella fase successiva, il team sta cercando di migliorare e automatizzare gli strumenti di analisi della spettrometria di massa per ridurre il tasso di falsa scoperta dei peptidi. Sta inoltre creando un wrapper grafico attorno alla sua API in modo che tutti i team di BioNTech possano trarne vantaggio nei loro flussi di lavoro quotidiani.
“Il progetto Spectrum Mill è solo il primo di molti progetti che stiamo pianificando”, afferma McCarthy. “Questo progetto ci permette di confidare nella possibilità di risolvere problemi simili per i nostri team globali. È davvero soltanto l'immaginazione che ti limita e non ho ancora trovato qualcosa che non potessi creare in AWS”.
Informazioni su BioNTech
BioNTech è una società globale di ricerca e sviluppo di immunoterapia che crea e produce immunoterapie attive ed esegue sperimentazioni cliniche di trattamenti e vaccini per il cancro e altre malattie.
Servizi AWS utilizzati
Gateway di archiviazione AWS
Gateway di archiviazione AWS è un set di servizi di archiviazione su cloud ibrido che offre l'accesso on-premises ad archiviazione cloud praticamente illimitata.
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) offre la piattaforma di calcolo più ampia e approfondita, con oltre 750 istanze e la selezione dei più recenti processori, sistemi di archiviazione, reti, sistemi operativi e modelli di acquisto per aiutarti a soddisfare al meglio le esigenze del carico di lavoro.
Ulteriori informazioni »
Amazon S3
Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione di oggetti che offre scalabilità, disponibilità dei dati, sicurezza e prestazioni all'avanguardia nel settore.
Ulteriori informazioni »
Amazon SQS
Amazon Simple Queue Service (Amazon SQS) consente di inviare, memorizzare e ricevere qualsiasi volume di messaggi tra componenti software senza perdita di dati e indipendentemente dalla disponibilità di altri servizi.
Ulteriori informazioni »
Altre testimonianze dei clienti del settore scientifico
Inizia
Organizzazioni di tutte le dimensioni in tutti i settori trasformano il proprio business e realizzano le loro missioni ogni giorno utilizzando AWS. Contatta i nostri esperti e inizia subito il tuo percorso verso il cloud AWS.