Kundengeschichten/Biowissenschaften

2023
Logo von BioNTech

BioNTech beschleunigt die Datenverarbeitung für Proteomik-Workflows mit AWS um das 500-fache

Erfahren Sie, wie BioNTech die Verarbeitung von Massenspektrometriedaten mithilfe parallelisierter Workflows beschleunigt hat, um die Verarbeitungszeit um das 500-fache zu verkürzen.

50–75 %

Verkürzung der Suchzeiten für Dateien

Deutliche Senkung

der Kosten für Rechen-Instances

Hunderte

Datensuchen gleichzeitig ausgeführt

Verbesserte

Produktivität der Wissenschaftler bei gleichzeitiger Aufrechterhaltung einer hohen Datensicherheit

Erhöhte

Zugänglichkeit und Wiederverwendbarkeit von Daten in der Organisation

Übersicht

BioNTech mit Hauptsitz in Deutschland ist ein globales Unternehmen, das sich auf die Entwicklung von Immuntherapien gegen Krebs und Infektionskrankheiten sowie Impfstoffen wie dem COVID-19-Impfstoff von Pfizer-BioNTech spezialisiert hat. Die Massenspektrometrie (MS) ist eine leistungsstarke Technologie zur direkten Identifizierung von Peptiden, die an Moleküle des menschlichen Leukozytenantigens (HLA) gebunden sind, aus von Patienten stammendem Tumorgewebe oder Zelllinien. Diese HLA-Immunopeptidome können als Quelle für die Entdeckung von Antigenen für zellbasierte Therapien abgefragt und als Grundlage für das Trainieren von Machine-Learning-Modellen zur Entwickung von Impfstoffen verwendet werden. 

BioNTech wollte seine Workflows zum Speichern, Organisieren und Verarbeiten von Terabytes an MS-Daten weiter verbessern, um sie effizienter und skalierbarer zu machen. Das Unternehmen beschloss, seine On-Premises-MS-Software und seinen Datenspeicher nach Amazon Web Services (AWS) zu migrieren, um eine skalierbare und sichere Handhabung auf dem neuesten Stand der Technik zu ermöglichen. Jetzt hat BioNTech die Zeit, um Erkenntnisse zu gewinnen, beschleunigt und es mithilfe von AWS Storage Gateway Forschern einfacher gemacht, MS-Daten auszutauschen und gemeinsam daran zu arbeiten. Dabei handelt es sich um einen Service, der On-Premises-Anwendungen Zugriff auf praktisch unbegrenzten Cloud-Speicher bietet.

Young female tech or scientist performs protein assay

Chance | Verwenden von AWS Storage Gateway zur weiteren Rationalisierung und Beschleunigung der Verarbeitung der Massenspektrometriedaten von BioNTech

Die Massenspektrometrie ist eine leistungsstarke Methode für die Immunopeptidomik, da sie Tausende einzigartiger HLA-gebundener Peptide in einer einzigen Analyse klinisch relevanter Gewebe und Zelllinien nachweisen und identifizieren kann. Der in einer einzigen Erfassung erzeugte Rohdatensatz ist eine große Sammlung von Spektren, die anhand einer Referenzproteomdatenbank durchsucht werden können, um Peptid- und Proteinidentifikationen zu erhalten. In Proteomik- und Immunopeptidomik-Workflows sind Softwarepakete wie die Spectrum Mill MS Proteomics Software wichtige Komponenten bei der Verarbeitung und Analyse der großen Mengen an MS-Daten, die routinemäßig erfasst werden. 

Bis 2022 betrieb das Unternehmen diese Software auf lokalen Servern. Wissenschaftler mussten Daten manuell von den Gerätecomputern auf lokale Workstations übertragen, auf denen Spectrum Mill lief. Diese Geräte waren schnell voll, sodass zusätzliche Schritte zur Archivierung der Daten erforderlich waren. „Unsere Gesamtdaten waren locker 10–15 Terabyte groß, und die Übertragung auf das On-Premises-Gerät war zeitaufwändig und herausfordernd“, sagt Akhil Chaudhary, Data Engineer bei BioNTech. „Als unsere Forschungsaktivitäten zunahmen, nahm auch unsere MS-Datenerfassung erheblich zu“, sagt Michael McCarthy, Solutions Architect bei BioNTech. „Die lokale Hardware konnte unsere Dimensionen nicht mehr unterstützen.“ 

Um die Datenverarbeitung und den Zugriff auf die interpretierten Ergebnisse zu beschleunigen, benötigte das Computerbiologie-Team von BioNTech eine Möglichkeit, Hunderte von Anfragen gleichzeitig mit verschiedenen Suchparametern und Proteinsequenzdatenbanken zu verarbeiten, um die Peptid- und Proteininformationen für neue Entdeckungen zu maximieren. Die Abteilung wandte sich an das BioNData-Team – eine zentrale Daten- und Analysegruppe innerhalb des Unternehmens –, um Tools zur horizontalen Skalierung der Datenverarbeitungskapazitäten zu entwickeln. Das Team entschied sich für AWS, um ein hybrides Labordatenmodell zu entwickeln und horizontal skalierbare APIs zu erstellen. „In den USA setzen wir AWS seit langem erfolgreich in Produkten ein“, sagt McCarthy. „Es war eine selbstverständliche Wahl.“

kr_quotemark

In AWS generieren und teilen unsere Wissenschaftler exponentiell mehr Daten mit dem Ziel, effektive, gezielte und personalisierte Therapien für Patienten zu finden. Es ist lediglich die Vorstellungskraft, die einen einschränkt, und ich habe noch nichts gefunden, das ich in AWS nicht entwickeln könnte.“

Michael McCarthy
Solutions Architect, BioNTech

Lösung | Massives Beschleunigen der Datenverarbeitung mithilfe parallelisierter Workflows

In der ersten Phase lag der Schwerpunkt von BioNTech darauf, Daten nahtlos von den MS-Instrumentencomputern in die Cloud zu übertragen und Spectrum Mill in AWS zu hosten. Die zweite Phase umfasste die Entwicklung eines Systems zur gleichzeitigen Ausführung der Suchanfragen. 

Um die MS-Rohdaten in die Cloud zu verschieben, installierte BioNTech den AWS-Storage-Gateway-Agenten auf jedem Instrumentencomputer. Nach der Erfassung werden MS-Rohdaten schnell und automatisch in Amazon Simple Storage Service (Amazon S3) verschoben, ein Objektspeicherservice, mit dem beliebige Datenmengen von überall abgerufen werden können. „Die Geschwindigkeit ist extrem schnell. Es dauert nur 5–10 Sekunden, bis eine Datei von 5 GB in Amazon S3 erscheint“, sagt Chaudhary. Da mehrere Instrumente große Datensätze generieren, ermöglicht diese MS-Datenpipeline eine effizientere Migration der Daten zu einem zentralen Standort, um einen einfachen Zugriff für die Verarbeitung und Archivierung zu ermöglichen. 

Das Computerbiologie-Team von BioNTech hat den neuen Workflow schnell übernommen. „Jeder nutzt das cloudbasierte System, und die Forscher finden es viel einfacher“, sagt McCarthy. „Wir automatisieren das Datenmanagement in AWS, sodass sich Wissenschaftler auf die Wissenschaft konzentrieren können.“ 

Als nächstes installierte das Team Spectrum Mill in Amazon Elastic Compute Cloud (Amazon EC2), das sichere und anpassbare Rechenkapazität für praktisch jeden Workload bietet. „Indem wir Spectrum Mill in der Cloud ausführen, haben wir die einzelnen Suchzeiten um 50 bis 75 % reduziert“, sagt Chaudhary. Darüber hinaus betreibt BioNTech Amazon-EC2-Spot-Instances, mit denen fehlertolerante Workloads ausgeführt werden können, und das zu einem Preisnachlass von bis zu 90 % im Vergleich zu On-Demand-Preisen. Da das Unternehmen nur für die Zeit bezahlt, in der es die Instances nutzt, hat es die Rechenkosten erheblich gesenkt. 

Um die Anzahl der Workflows zu skalieren, die gleichzeitig ausgeführt werden können, verwendet das Team Amazon Machine Images, welche die zum Starten einer Instance erforderlichen Informationen bereitstellen, und Amazon EC2 Auto Scaling, das Rechenkapazität hinzufügen oder entfernen kann, um wechselnden Anforderungen gerecht zu werden. „Jetzt führen wir unsere Suchanfragen 50 bis 75 % schneller aus, und mit Amazon EC2 Auto Scaling können wir Hunderte von Instances parallel ausführen, wodurch die Datenverarbeitung um das bis zu 500-fache beschleunigt wird“, sagt McCarthy. 

BioNTech verwaltet Spectrum-Mill-Workflows mithilfe von Amazon Simple Queue Service (Amazon SQS), einem vollständig verwalteten Nachrichtenwarteschlangenservice. Das Unternehmen nutzt auch Amazon API Gateway, einen Service zur Erstellung, Wartung und Sicherung von APIs jeder Größenordnung, um Spectrum-Mill-Suchen durchzuführen. Anschließend werden die Daten aus einem Data Warehouse in Amazon Redshift abgerufen, das ein hervorragendes Preis-Leistungs-Verhältnis für Cloud-Data-Warehousing bietet. Diese Datensätze werden von den wissenschaftlichen Teams verwendet, um therapeutische Ziele zu identifizieren und Algorithmen für der künstlichen Intelligenz für das Entwerfen von Impfstoffen zu entwickeln. 

Mit data.all, einem Open-Source-Tool für die Freigabe von Datensätzen zwischen AWS-Konten, verbindet das Team verarbeitete Ergebnisse mit Datenverbrauchern im gesamten Unternehmen. Dadurch müssen Forscher keine Zeit mehr für das Datenmanagement aufwenden. „In AWS generieren und teilen unsere Wissenschaftler exponentiell mehr Daten mit dem Ziel, effektive, gezielte und personalisierte Therapien für Patienten zu finden“, sagt McCarthy.

Ergebnis | Erweitern der Geschwindigkeit und Skalierbarkeit auf mehr Workflows

BioNTech hat schnell die Vorteile seiner neuen Workflows in AWS erkannt. „Wir könnten alle Arbeiten der letzten 7 Jahre in 60 Stunden für einen Bruchteil des Preises wiederholen“, sagt Chaudhary. In der nächsten Phase will das Team die Massenspektrometrie-Analysetools verbessern und automatisieren, um die Falschentdeckungsrate von Peptiden zu senken. Es erstellt auch einen grafischen Wrapper für seine API, sodass alle Teams von BioNTech in ihren täglichen Workflows von der API profitieren können.

„Das Spectrum-Mill-Projekt ist nur das erste von vielen, die wir planen“, sagt McCarthy. „Dieses Projekt weckte die Zuversicht, dass wir ähnliche Probleme für unsere globalen Teams lösen können. Es ist lediglich die Vorstellungskraft, die einen einschränkt, und ich habe noch nichts gefunden, was ich in AWS nicht entwickeln könnte.“

Über BioNTech

BioNTech ist ein globales Forschungs- und Entwicklungsunternehmen für Immuntherapien, das aktive Immuntherapien entwickelt und herstellt und klinische Studien mit Behandlungen und Impfstoffen gegen Krebs und andere Krankheiten durchführt.

Genutzte AWS-Services

AWS Storage Gateway

AWS Storage Gateway ist eine Reihe von Hybrid-Cloud-Speicherservices, die On-Premises-Zugriff auf praktisch unbegrenzten Cloud-Speicher bieten.

Mehr erfahren »

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) bietet die umfangreichste und tiefste Datenverarbeitungsplattform mit über 750 Instances und einer Auswahl an neuesten Prozessoren, Speichern, Netzwerken, Betriebssystemen und Kaufmodellen, damit Sie die Anforderungen Ihres Workloads optimal erfüllen können. 

Mehr erfahren »

Amazon S3

Amazon Simple Storage Service (Amazon S3) ist ein Objektspeicher-Service mit branchenführender Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung. 

Mehr erfahren »

Amazon SQS

Mit Amazon Simple Queue Service (Amazon SQS) können Sie Nachrichten zwischen Softwarekomponenten in beliebiger Zahl senden, speichern und empfangen – ohne dass Nachrichten verloren gehen oder andere Services verfügbar sein müssen.

Mehr erfahren »

Weitere Kundenberichte aus dem Bereich Life Sciences

Keine Elemente gefunden 

1

Erste Schritte

Organisationen aller Größen aus verschiedenen Sektoren transformieren ihre Unternehmen und erfüllen ihre Missionen täglich mithilfe von AWS. Kontaktieren Sie unsere Experten und begeben Sie sich noch heute Ihren Weg zu AWS.