DNAnexus & Amazon Web Services (AWS) treiben die Technologie hinter der Forschungsanalyseplattform UK Biobank voran

Zusammenfassung

Forscher aus der ganzen Welt mussten sicher auf die UK Biobank, eine biomedizinische Datenbank und Forschungsressource im Petabyte-Format, zugreifen können. Der AWS-Partner DNAnexus nutzte Amazon S3 und Amazon EC2, um eine skalierbare Plattform aufzubauen und zu betreiben, die es zugelassenen Nutzern ermöglicht, „Softcopies“ der Dateien in einer virtuellen Umgebung sicher anzusehen und zu analysieren. Dadurch wurde die Sicherheit der Gesundheitsdaten gewährleistet und der Zugang zu Forschern, denen eine eigene Speicher- und Analyseinfrastruktur fehlt, demokratisiert.

Verstehen verschiedener Faktoren

Um komplexe Krankheiten wie Typ-2-Diabetes, Krebs und Alzheimer zu verstehen und zu behandeln, müssen Wissenschaftler die Beziehung zwischen genetischen, Umwelt- und Lebensstilfaktoren im Laufe der Zeit verstehen. Längsschnittdaten dieser Art sind äußerst schwierig zu sammeln, weshalb die globale wissenschaftliche Gemeinschaft in hohem Maße von einer kollaborativen, groß angelegten biomedizinischen Datensatz- und Forschungsressource, die als UK Biobank bekannt ist, profitieren wird.

Laut einer Demenzstudie aus dem Jahr 2019 mit Daten von 196 383 UK-Biobank-Teilnehmern kann ein gesunder Lebensstil das Demenzrisiko unabhängig vom genetischen Risiko verringern. Die Ergebnisse zeigten, dass Interventionen das genetische Demenzrisiko ausgleichen könnten. Eine Studie aus dem Jahr 2018 mit 472 000 UK-Biobank-Teilnehmern im Alter zwischen 40 und 69 Jahren kam zu dem Schluss, dass Rauchen, Diabetes und Bluthochdruck das Herzinfarktrisiko bei Frauen stärker erhöhen als bei Männern. Bei Frauen war Bluthochdruck mit einem um 80 Prozent höheren Risiko verbunden als bei Männern insgesamt. Bei Typ-I-Diabetes-Patienten war das Herzinfarktrisiko bei Frauen fast dreimal höher als bei Männern, während bei Typ-2-Diabetes-Patienten das Risiko für Frauen um 47 Prozent höher war.

Zwischen 2006 und 2010 rekrutierte die UK Biobank 500 000 Freiwillige aus dem gesamten Vereinigten Königreich. Jeder stellte detaillierte Informationen über seinen Lebensstil und seine körperlichen Maßnahmen zur Verfügung, darunter Blut-, Urin- und Speichelproben, die für zukünftige Analysen aufbewahrt werden sollten. Die UK Biobank richtete eine kontinuierliche Datenerfassung in Verbindung mit der Integration elektronischer Patientenakten ein, wodurch Zehntausende von Datenpunkten für jeden Teilnehmer generiert wurden. Vollständige Genotypisierungsdaten wurden 2017 hinzugefügt, und die Sequenzierungsdaten des gesamten Genoms von allen 500 000 Teilnehmern werden Anfang 2023 öffentlich zugänglich gemacht (die Sequenzierungskomponente wurde kürzlich abgeschlossen). Die UK Biobank geht davon aus, dass ihre Datenbank bis 2025 40 Petabyte an Daten überschreiten wird.

Das gemeinsame Ziel dieser breit angelegten Datenerhebung besteht darin, zugelassenen Forschern aus der ganzen Welt zu helfen, eine Vielzahl von Krankheiten besser zu verstehen, zu verhindern und zu behandeln. Ein Datensatz dieser Größe und Komplexität stellt jedoch eine beispiellose Herausforderung für das Datenmanagement dar. Hier kommt DNAnexus ins Spiel. DNAnexus ist ein langjähriger AWS-Kompetenzpartner für Biowissenschaften und wurde 2009 mit dem Ziel gegründet, wissenschaftlichen Forschern zu helfen, auf komplexe biomedizinische Daten sicher zuzugreifen, diese zu analysieren und zu operationalisieren. Die skalierbare Plattform fördert die Zusammenarbeit und ermöglicht es Nutzern, mehrere Datentypen, einschließlich genomischer und klinischer Daten, zusammen zu analysieren. Dies ist ein entscheidendes Merkmal für Forscher, die an der Entschlüsselung komplexer Krankheiten arbeiten.

„Die größte Herausforderung bestand darin, die Daten an einem einzigen Ort zusammenzuführen, sodass Forscher Millionen von Metriken aus einer Vielzahl von Datentypen wie Genetik, Lebensstil und Bildgebung analysieren konnten, und das alles ohne Datenreplikation“, sagte Asha Collins, General Manager von
Biobanks bei DNAnexus. „Ebenso wichtig war, dass wir uns damit befassen mussten, wie wir die notwendigen Rechen- und Datenspeicher bereitstellen konnten, damit Forscher mit diesem riesigen Datensatz wirklich problemlos arbeiten konnten.“

Im Jahr 2020 begannen DNAnexus und AWS eine dreijährige Zusammenarbeit mit der UK Biobank, um den Zugang zu den Daten zu demokratisieren. Zusammen ersetzten sie kostspielige und zeitintensive Daten-Downloads durch eine innovative cloudbasierte Research Analysis Platform (RAP, Forschungsanalyseplattform), die es
Forschern ermöglicht, von überall auf der Welt sicher auf die gesamte UK-Biobank-Datenbank zuzugreifen und sie zu analysieren. Bereits bei der ersten Entwicklung war sich die UK Biobank bewusst, dass der Erfolg von der Fähigkeit der Plattform abhängt, steigende Datenmengen zu verwalten und Analysetools in einer zentralen Umgebung bereitzustellen.

„Die größte Herausforderung bestand darin, die Daten an einem einzigen Ort zusammenzuführen, sodass Forscher Millionen von Metriken aus einer Vielzahl von Datentypen wie Genetik, Lebensstil und Bildgebung analysieren konnten, und das alles ohne Datenreplikation. Ebenso wichtig war, dass wir uns damit befassen mussten, wie wir die notwendigen Rechen- und Datenspeicher bereitstellen konnten, damit Forscher mit diesem riesigen Datensatz problemlos arbeiten konnten.“ 

– Asha Collins, General Manager of Biobanks at DNAnexus

Teilen von „Softcopies“

Die Forscher griffen zunächst über benutzerdefinierte Datenbereitstellungssysteme auf UK-Biobank-Dateien zu, die die frühen tabellarischen Daten für Forscher zum Herunterladen und Analysieren in ihren eigenen Umgebungen bereitstellten. Als jedoch mehr Daten verfügbar wurden und ein breiterer Pool von Forschern Zugang beantragte, wurde der individuelle Ansatz unhaltbar. Bis Ende 2021 erhielten mehr als 28 000 Wissenschaftler aus Forschung und Industrie aus mehr als 90 Ländern die Genehmigung, auf die UK-Biobank-Datenbank und Forschungsressourcen zuzugreifen.

„Wir erreichen jetzt ein Ausmaß, in dem es für all diese Gruppen einfach nicht effizient oder kostengünstig ist, mehrere Kopien von Daten auf der ganzen Welt zu verwalten“, sagte Mark Effingham, stellvertretender CEO der UK Biobank. „Wir mussten einen anderen Ansatz verfolgen, um unsere zugelassenen Forscher in eine Umgebung zu bringen, in der sie die Daten nutzen können.“

DNAnexus schuf eine sichere Alternative, die die Infrastruktur und die Kostenbelastung der Nutzer der UK Biobank reduzierte. Eine einzige Version der Daten wird mithilfe des Amazon Simple Storage Service (Amazon S3) gespeichert, einer skalierbaren cloudbasierten Infrastruktur, die das kontinuierliche Wachstum der UK Biobank unterstützen und mit ihm Schritt halten kann.

Die Plattform stellt den Forschern die Daten intelligent zur Verfügung und minimiert so die Datenduplikation. Forscher haben keinen direkten Zugriff auf diese Dateien. Stattdessen arbeiten sie in einer virtuellen Umgebung, die „Softcopies“ der Datenuntergruppen bereitstellt, für deren Zugriff sie zugelassen sind.

Die Zusammenarbeit nutzt auch Amazon Elastic Compute Cloud (Amazon EC2), ein Service, der sichere, skalierbare Rechenkapazitäten in der Cloud bereitstellt. Mithilfe von Amazon EC2 bietet DNAnexus eine flexible, skalierbare Plattform, auf der Forscher nur dann Gebühren zahlen, wenn sie Analysen durchführen. Die Plattform kann auch Amazon-EC2-Spot-Instances nutzen, die im Vergleich zu On-Demand-Preisen mit einem Rabatt von bis zu 90 Prozent erhältlich sind, sodass selbst die größten Aufträge ökonomisch ausgeführt werden können.

„Die Zusammenarbeit mit DNAnexus und AWS auf dieser Plattform schafft einen Bereich, in dem Forscher nicht nur ihre eigenen Datenanalysen einsetzen und durchführen können, sondern sie können auch kosteneffizient skalierbare Cloud-Infrastruktur, Rechenleistung und Speicher nutzen, um diese Analysen tatsächlich zu unterstützen, unabhängig davon, von wo aus sie arbeiten“, sagte Effingham. „Wir sind stolz darauf, eine Forschungsplattform anbieten zu können, die den Wert der Daten maximiert und den Zugang für alle Forscher auf der ganzen Welt demokratisiert.“

Sicherer Zugriff durch Pseudonymisierung

Der Austausch von Erkenntnissen über eine halbe Million Teilnehmer mit verknüpften Patientenakten ist aus datenschutzrechtlicher Sicht eine Herausforderung. Um diese Daten zu schützen und gleichzeitig den Wert der vielen miteinander verbundenen biomedizinischen Datenpunkte zu erhalten, entwickelte DNAnexus ein Pseudonymisierungssystem.

„Dadurch können wir eine Kopie der Daten hinter den Kulissen aufbewahren, was zu erheblichen Kosteneinsparungen führt“, erklärt Collins. „Diese Daten werden entsprechend pseudonymisiert und in einen virtuellen Bereich „kopiert“, in dem sie genau die Dateien und Tabellenfelder sehen, für die sie zugelassen wurden, mit entsprechenden Änderungen der Dateinamen.“

Die UK Biobank setzt auf verbesserte Sicherheitsmaßnahmen, sodass jeder Forscher eine etwas andere Kopie der Daten erhalten muss. Die Teilnehmer-IDs werden für jeden einzelnen Forscher pseudonymisiert. Diese IDs sind sowohl in den Dateinamen als auch in den Inhalt selbst eingebettet, sodass DNAnexus seine Pseudonymisierungsunterstützung ausbauen kann. Durch die Nutzung der oben beschriebenen „Softcopies“ sowie einiger sicherer Download-Mechanismen erfüllte die Plattform diese anspruchsvollen Anforderungen für Tausende von Forschern, ohne die Daten zu duplizieren.

DNAnexus hat diese Funktion entwickelt, um dem steigenden Bedarf an Plattformen gerecht zu werden, die den sicheren Zugriff auf Multi-Omics-Bevölkerungsdatensätze vermitteln können, die weiter wachsen.

Die UK-Biobank-Datenbank hat sich bereits als leistungsstarke Ressource für die globale Forschungsgemeinschaft erwiesen und neue wissenschaftliche Entdeckungen ermöglicht, die die öffentliche Gesundheit verbessern könnten. Die Forschungsanalyseplattform hat das Potenzial, die Geschwindigkeit und den Umfang wissenschaftlicher Entdeckungen zu erhöhen und den Zugang zu demokratisieren, sodass zugelassene Forscher ihre eigenen Analysen zu den Daten von überall auf der Welt einbringen können, um das Verständnis menschlicher Krankheiten zu verbessern. Darüber hinaus löst die RAP die Komplexität, die mit der Integration und Harmonisierung genomischer und klinischer Daten verbunden ist. Sie erleichtert auch eine bessere Zusammenarbeit zwischen Forschern, indem sie Nutzern ermöglicht, mehrere Datentypen zu analysieren und innerhalb der cloudbasierten Plattform an demselben Forschungsprojekt zu arbeiten. Dieser Erfolg wird wahrscheinlich zu weiterem Wachstum führen und die Entscheidung der UK Biobank bekräftigen, mit Partnern wie DNAnexus und AWS zusammenzuarbeiten, die für ihre skalierbaren, agilen Lösungen bekannt sind.

Biobank

Über den Kunden

Die UK Biobank ist eine groß angelegte biomedizinische Datenbank und Forschungsressource, die ausführliche genetische und gesundheitliche Informationen von einer halben Million britischer Teilnehmer enthält. Die Datenbank wird regelmäßig um zusätzliche Daten erweitert und ist weltweit für anerkannte Forscher zugänglich, die wichtige Forschungen zu den häufigsten und lebensbedrohlichsten Krankheiten durchführen. Sie leistet einen wichtigen Beitrag zur Weiterentwicklung der modernen Medizin und Behandlung und hat mehrere wissenschaftliche Entdeckungen ermöglicht, die die menschliche Gesundheit verbessern.

Über DNAnexus

DNAnexus hat eine sichere, vertrauenswürdige Cloud-Plattform für den Zugriff, die Analyse und Übersetzung der weltweiten biomedizinischen Daten eingerichtet und damit eine wissenschaftliche Gemeinschaft unterstützt, die lebensverändernde Durchbrüche im Gesundheitswesen und in den Biowissenschaften erzielt.

Erschienen im Mai 2022