Das Baylor College of Medicine in Houston, Texas ist die Heimat des Human Genome Sequencing Center (HGSC), eines von drei staatlich finanzierten Sequenzierungszentren in den USA. Eines der Projekte des HGSC trägt den Namen CHARGE (Cohorts for Heart and Aging Research in Genomic Epidemiology), ein Konsortium aus über 200 Wissenschaftlern aus 5 Einrichtungen in aller Welt, die daran arbeiten, Gene zu identifizieren, die zum Alterungsprozess und zu Herzkrankheiten beitragen. Das CHARGE-Projekt analysiert als fortlaufendes Konsortium Genproben und Phenotypdaten aus den umfangreichen Studien des NHLBI (National Heart, Lung, and Blood Institute) und aus ähnlichen europäischen Studien. CHARGE und das Baylor College of Medicine arbeiten zusammen, um möglichst viele der Studienteilnehmer zu sequenzieren und durch die Mercury-Analysepipeline von Baylor zu verarbeiten, damit Wissenschaftler besser verstehen können, inwieweit genetische Variationen eine Rolle beim Vermeiden und Behandeln von Herzinfarkten und Herzkrankheiten eine Rolle spielen könnten. Baylor verfügt über 20 Sequenzierungscomputer, die monatlich ca. 24 TB an Inhalt bereitstellen, was ca. 1 PB an Rohdaten entspricht. Derzeit nehmen mehr als 14 000 Personen an der Studie teil. Der Großteil der Datenressource erfordert innovative Datenlösungen.

DNAnexus bietet Datenverwaltung, Sequenzierungsdatenanalysen der nächsten Generation und sichere Zusammenarbeit für DNS-Sequenzierungszentren und Forscher. Die Services von DNAnexus werden durch ein einfaches, einheitliches System bereitgestellt, das entsprechend der jeweiligen akademischen oder kommerziellen Anforderungen der Kunden skaliert werden kann. Dieses einheitliche System umfasst u. a. eine On-Demand-Infrastruktur für Datenverarbeitung und Speicherung, Unterstützung von Bioinformatik und Cloud Computing sowie eine konforme Zusammenarbeit. Die PaaS-Lösung von DNAnexus, die auf Amazon Web Services (AWS) basiert, wird von akademischen Einrichtungen, staatlichen Forschungslaboren, biopharmazeutischen Unternehmen und Anbietern von Diagnosetests verwendet.

Im letzten Jahrhundert sind einige Studien Patienten während ihrer gesamten Lebensdauer gefolgt, um zu ermitteln, wie Menschen bestimmte Zustände oder Krankheiten entwickeln. Dank der Entwicklung von DNA-Sequenzierungswerkzeugen und der Möglichkeit, riesige Datenmengen zu verwalten, werden die Ergebnisse dieser Studien jetzt erneut als Teil des CHARGE-Projekts analysiert. CHARGE-Wissenschaftler in aller Welt nutzen Daten, um die Ursachen und die Vermeidung von Krankheiten zu erforschen.

Da DNA-Sequenzierer aber immer effizienter und genomische Tests immer verbreiteter werden, ist die zu analysierende Datenmenge schlichtweg riesig geworden. Mit mehr als 430 TB Daten im CHARGE-Projekt wäre schon das bloße Verteilen der Daten an interessierte Wissenschaftler eine Herausforderung gewesen. Früher hätte man Festplatten mit den Daten verschlüsselt und dann per Post an die mehr als 200 Wissenschaftler im CHARGE-Projekt versandt – was zu Verzögerungen beim Teilen von Informationen und zu Datensicherheitsproblemen führte. "Der Versand von Festplatten an so viele Personen wäre ein logistischer Albtraum", so Narayanan Veeraraghavan, Lead Programmer Scientist bei Baylor. "Daten müssten an allen Punkten verschlüsselt werden. Bei so vielen Wissenschaftlern und so vielen Festplatten würde es viele Fehler geben, da nicht jeder in der Lage wäre, Sicherheitsrichtlinien zu folgen."

Schon die Herausforderungen an die Infrastruktur wären riesig. "Es dauert einige Monate, um die Infrastruktur für bestimmte Anforderungen an Datenspeicherung und Datenverarbeitung einzurichten", erläutert Veeraraghavan. "In diesen Monaten kann sich die Technologie ändern, Protokolle können sich ändern und Aktualisierungen an der Sequenzierungsplattform können bedeuten, dass Sequenzierungscomputer ihre Ausgabe verdoppeln können. Während der Zeit, die für Planung und Schätzung der Hardwareanforderungen aufgebracht wurde, hat sich der Bedarf also verdoppelt." Baylor wollte es Wissenschaftlern außerdem ermöglichen, Werkzeuge betriebssystemübergreifend gemeinsam zu nutzen.

Der lokale Datenverarbeitungsbedarf "kann Projekte an den Rand des Zusammenbruchs bringen", so Veeraraghavan weiter. "Wir müssen in der Lage sein, zu skalieren und riesige Datenmengen zu speichern. Wir brauchten eine andere Lösung, ansonsten wäre die CHARGE-Studie unerschwinglich geworden. Für uns wäre es schwierig oder unmöglich, die benötigten Datenverarbeitungsressourcen alleine zu beschaffen."

Baylor brauchte eine kosteneffiziente, einfach zu verwaltende Lösung, die dem College eine sichere und effektive weltweite Zusammenarbeit ermöglichen sollte, ohne Verzögerungen durch die Einrichtung einer physischen Infrastruktur. "Wir konnten es uns nicht leisten, Monate mit der Einrichtung einer Infrastruktur zu verbringen. Wir brauchten die Möglichkeit, gemeinsam effizient, interaktiv und sicher auf Daten zuzugreifen", erklärt Veeraraghavan.

Außerdem musste die Lösung flexibel genug sein, um klinische Standards und HIPAA-Anforderungen zu erfüllen. "Nachdem wir alle Karten auf dem Tisch hatten, hat uns natürlich DNAnexus und die AWS Cloud überzeugt."

Baylor entschied sich für eine Partnerschaft mit DNAnexus, die eine API-basierte PaaS bereitstellt und es Klinik- und Forschungsunternehmen so ermöglicht, ihre Analysepipelines und Daten effizient und sicherer in die AWS Cloud zu verschieben. DNAnexus ermöglicht seinen Kunden das Portieren proprietärer Algorithmen mit Branchenstandard-Werkzeugen und Referenzressourcen in die Cloud, um benutzerdefinierte Workflows zu erstellen. Die DNAnexus-PaaS basiert vollständig auf AWS, sodass es DNAnexus möglich ist, sein System auf mehr als 20 000 simultane Rechenkerne, 1 PB Speicher, Millionen von Stunden für Analysen und Hunderttausende von Datenverarbeitungsaufträgen in der AWS Cloud zu skalieren. AWS hat DNAnexus außerdem ein Business Associates Agreement (BAA) bereitgestellt, das es DNAnexus ermöglicht, optimale Sicherheit und Konformität mit Gesetzen des Gesundheitswesens in den USA und international anzubieten. Mit AWS können Kunden HIPAA-konforme Verarbeitungslasten erstellen und ausführen.

Das CHARGE-Projekt verwendet Mercury, die Analyseplattform von Baylor, zur Verarbeitung der Daten. Die Mercury-Pipeline nutzt Rohdateien des Sequenzierungscomputers und verwandelt diese Daten in das Endprodukt: eine kommentierte Datei, die solche Mutationen identifiziert, die von klinischer Bedeutung sein könnten. Danach führen Wissenschaftler tertiäre Analysen durch, um zusätzliche Forschungsfragen zu beantworten. Eine kleine Forschergruppe entwickelt Werkzeuge, die sich die Biologie der einzelnen Gen-Marker näher ansehen, damit die Daten mit neuen Ergebnissen zu Prognose- und Schutzgenen erneut verarbeitet werden können. Forscher können mithilfe der DNAnexus-Plattform unterschiedliche Werkzeuge miteinander vergleichen und über geografische Grenzen hinweg gemeinsam nutzen.

DNAnexus verwendet Amazon Simple Storage Service (Amazon S3) und Amazon Glacier zum Speichern von mehr als 1 PB genomischer Daten. DNAnexus hat ein Befehlszeilentool erstellt, das es Wissenschaftlern ermöglicht, DNA-Daten direkt aus dem Sequenzierungscomputer in die Cloud hochzuladen, sodass keine teure lokale Speicherinfrastruktur mehr erforderlich ist. Amazon Elastic Compute Cloud (Amazon EC2) hostet die eigentliche DNA-Analyse. DNAnexus hat ein benutzerdefiniertes Warteschlangensystem entwickelt, das auf Amazon EC2 Instances betrieben werden kann und Unterbrechungen der Datenverarbeitung abfängt.

Zur Optimierung der Kosten verwendet DNAnexus Amazon EC2 Reserved Instances für seine interaktiven Services, zum Beispiel für die Website, das Front-End-Kundenportal, die DNA-Visualisierungstools sowie für die Back-End-Cloud- und Auftragsverwaltungs-Services.

DNAnexus.arch

Abbildung 1. Die HGSC-Architektur von Baylor in der AWS Cloud

Baylor und DNAnexus schützen CHARGE-Daten durch Steuern des Zugriffs auf die Mercury-Pipeline unter Verwendung bewährter AWS-Methoden. "Wir verarbeiten vertrauliche medizinische Daten über Menschen", erläutert Veeraraghavan. "Durch die Verwendung einer Pipeline und das Steuern des Zugriffs auf diese Pipeline können Sie Ihre Umgebung so strukturieren, dass das Risiko minimiert wird." Die strengen Sicherheitsprotokolle von AWS ermöglichen es DNAnexus, seinen Kunden optimale Sicherheits-, Compliance- und Überwachungsstandards gemäß HIPAA, CLIA und anderen komplexen Vorschriften anzubieten. Omar Serang, Chief Cloud Officer von DNAnexus, sagt: "Wir sind in der Lage, sehr große klinische Studien zu unterstützen, die eine Datenverarbeitungsinfrastruktur in einer sicheren und konformen Umgebung in einer Größe benötigen, die zuvor nicht möglich war."

Nach der Umstellung auf AWS und DNAnexus konnte Baylor seine erste Analyse innerhalb von 10 Tagen abschließen – fünf Mal schneller als mit der lokalen Infrastruktur – und konnte die Ergebnisse schnell mit anderen teilen. Die Analyse verwendete 21 000 Kerne. Eine Amazon EC2 XL-Instance verfügt über 16 virtuelle Kerne. "Die AWS Cloud ermöglicht eine zügige Zusammenarbeit, sogar bei Hunderten von Terabytes an Daten", so Veeraraghavan. "Durch die Möglichkeit, einen zentralen Bereich zu haben, in dem alle Beteiligten diese Daten verarbeiten können, wird die Bandbreite und der Bedarf an zu kaufenden und zu wartenden Datenverarbeitungsressourcen reduziert."

Das ist ein großer Unterschied zu den Tagen, als Baylor noch Festplatten versenden musste, um Wissenschaftlern bei der Zusammenarbeit zu helfen. Mithilfe von AWS und DNAnexus waren Baylor und CHARGE in der Lage, Wissenschaftlern, die unterschiedliche Systeme verwenden, eine gemeinsame Umgebung für die gemeinsame Nutzung von Analysetools bereitzustellen. "Jeder Wissenschaftler kann unabhängig davon, ob er Mac, Linux oder Windows verwendet, alle Tools für alle CHARGE-Daten in DNAnexus ausführen", so Veeraraghavan. Andrew Carroll, führender DNAnexus-Wissenschaftler für CHARGE, fügt hinzu: "Mithilfe der AWS Cloud können wir Tools vergleichen, sodass ersichtlich wird, welche davon für ein spezielles Projekt funktionieren und welche nicht. DNAnexus in der AWS Cloud ermöglicht Forschern das Teilen ihrer Erkenntnisse mit der wissenschaftlichen Gemeinschaft."

Durch die Skalierbarkeit der AWS Cloud können CHARGE-Wissenschaftler bessere vorausschauende Einblicke in die untersuchten Bedingungen erhalten. Außerdem können sie "Schutz"-Gene identifizieren, die möglicherweise verhindern können, dass eine Person erkrankt – und das schneller und sicherer. "Das ist der wichtigste Grund für die Verwendung der AWS Cloud", betont Carroll. "CHARGE muss möglichst kurz mit sehr hohen Spitzenbelastungen ausgeführt werden, um zu einem Ergebnis zu kommen. Die AWS Cloud ermöglicht DNAnexus die Flexibilität, eine eigene PaaS zu erstellen, die auf der AWS-Technologie aufsetzt. Wir können das DNAnexus-System praktisch auf unbegrenzte Datenverarbeitungs- und Datenspeicherungsressourcen skalieren."

DNAnexus und AWS haben es CHARGE-Wissenschaftlern vor allem ermöglicht, sich auf die Wissenschaft zu konzentrieren – nicht auf die Infrastruktur. "Das Upgraden einer Infrastruktur bei jedem bevorstehenden großen Datenzustrom erfordert hohe Investitionen und natürlich auch entsprechenden Platz", erläutert Veeraraghavan. "Diese Art der Datenverarbeitung ist darüber hinaus keine einmalige Sache: Das Wachstum erfolgt zumeist exponentiell. Bei unserer Suche nach den Horizonten der Wissenschaft gibt es alle möglichen Einschränkungen. Aber dank AWS und DNAnexus können wir uns jetzt auf die Wissenschaft anstatt auf die Infrastruktur konzentrieren."

Weitere Informationen zur Genforschung in der Cloud finden Sie auf der AWS Genomics-Detailseite.