In den letzten Jahrzehnten kam es der medizinischen Forschung zu einen gewaltigen Anstieg bei der Generierung genetischer- und weiterer biomolekularer Daten für menschliche Patienten. Doch die Fähigkeit zur sinnvollen Interpretation dieser Informationen und Übersetzung in Fortschritte bei der Patientenversorgung war bislang bei weitem nicht so hoch entwickelt. Die Schwierigkeiten bei Zugriff, Verständnis und Wiederverwendung von Daten, Analysemethoden oder Krankheitsmodellen in mehreren Laboratorien mit sich gegenseitig ergänzender Kompetenz stellen ein großes Hindernis bei der effektiven Interpretation genomischer Daten dar. Sage Bionetworks ist eine gemeinnützige biomedizinische Forschungsorganisation, die versucht, die Art der Zusammenarbeit von Forschern grundlegend zu wandeln, indem ein Übergang zu einer offenen, transparenten Forschungsumgebung eingeleitet wird. Von einem solchen Übergang könnten künftige Patienten durch Beschleunigen der Entwicklung von Behandlungen und die Gesellschaft als Ganzes profitieren, indem die Kosten im Gesundheitswesen gesenkt und dessen Wirksamkeit erhöht wird.

sagebio-synapse-whiteboard

Sage Bionetworks erstellte zur Förderung der Zusammenarbeit der Wissenschaftler eine Online-Umgebung namens Synapse. Synapse hostet klinisch-genomische Datensätze und bietet den Forschern eine Plattform zur gemeinsamen Analyse. Ebenso wie GitHub und Source Forge Softwareentwicklern Tools und freigegebenen Code zur Verfügung stellen, bietet Synapse Forschern einen gemeinsam genutzten EDV-Bereich und eine Palette von Analyse-Tools. Synapse nutzt für grundlegende Infrastrukturaufgaben eine Vielzahl von AWS-Produkten. Dadurch kann sich das Entwicklungsteam von Sage Bionetworks auf die wissenschaftlich relevantesten und besonderen Aspekte seiner Anwendung konzentrieren.

Amazon Simple Workflow Service (Amazon SWF) ist eine wichtige in Synapse genutzte Technologie. Synapse setzt auf Amazon SWF, um komplexe, heterogene wissenschaftliche Workflows aufeinander abzustimmen. Michael Kellen, ist Director of Technology bei Sage Bionetworks, erklärt: "Mit SWF können wir Analyse-Pipelines schnell und geordnet zerlegen. Dazu trennen wir die Zustandsübergangslogik von den tatsächlichen Aktivitäten in jedem Schritt der Pipeline. So können Softwareentwickler an der Zustandsübergangslogik und unsere Wissenschaftler an der Implementierung der Aktivitäten arbeiten, und zwar gleichzeitig. Durch den Einsatz von Amazon SWF kann Synapse außerdem eine heterogene Zusammenstellung von EDV-Ressourcen aus unseren internen Servern, an den Standorten unserer Partner gehosteter gemeinsam genutzter Infrastruktur und öffentlichen Ressourcen wie Amazon Elastic Compute Cloud (Amazon EC2) nutzen. Dies ermöglicht uns eine enorme Flexibilität, was die Ausführung von Berechnungsaufträgen angeht, sodass Synapse für jedes Projekt die richtige Infrastrukturkombination nutzen kann."

sage-bionetworks-2-arch-diagram

Eines der ersten Pilotprojekte bei Synapse war MetaGEO. Der Zweck von MetaGEO ist das Verbessern des Verständnisses und der Nutzung menschlicher Genexpressionsdaten zum Prognostizieren der wichtigsten Krankheitsauslöser. Mithilfe von Amazon SWF entwickelte das Sage Bionetworks-Team eine Pipeline zur automatischen Analyse einer Sammlung von Datensätzen aus dem National Center for Biotechnology Information (NCBI) Gene Expression Omnibus (GEO). Diese Sammlung umfasst nahezu 8 000 Datensätze mit Größen von 100 MB bis knapp 100 GB. Diese Pipeline diente zunächst zum Hinzufügen aussagekräftiger Anmerkungen, um Forschern mit den Datensätzen vertraut zu machen, die sie zur Verarbeitung ausgewählt haben. In der Pipeline wurden anschließend numerische Methoden angewendet, um fehlerhafte, nutzlose Datenelemente zu entfernen. Diese numerische Qualitätskontrollaktivität wird auch informell im Englischen als "QCing" des Datensatzes bezeichnet. Nach Abschluss dieses Schritts können Wissenschaftler die in mehreren Studien gesammelten Daten detailliert nach Genen durchsuchen, die durchgängig als mit einer bestimmten Krankheit in Verbindung stehend ausgedrückt werden. Vor dem Einsatz von SWF dauerte diese Art der Verarbeitung sehr lange. Zuvor implementierten Wissenschaftler ihre Algorithmen durch das Schreiben einzelner Perl-Skripts zum Anwenden von Berechnungen auf die zusammengeführten Daten. Die Daten wurden zwar analysiert, doch das Nachverfolgen fehlgeschlagener Berechnungsaufträge war wie das Ermitteln der Ursache ein mühsamer manueller Prozess. Und bei einem solchen Ansatz war Wissenschaftlern keinerlei Parallelverarbeitung möglich. Was Synapse brauchte, war ein zuverlässiger Mechanismus zum Koordinieren der verschiedenen Aufträge und deren Nachverfolgung, auch wenn mehrere parallel ausgeführt wurden oder es Abhängigkeiten zwischen ihnen gab.

Im Rahmen eines privaten Beta-Programms wurde dem Sage Bionetworks-Team Amazon SWF vorgestellt, ein AWS-Service, der bereits von AWS und Amazon.com intern genutzt wurde. Das Sage Bionetworks-Team fand, dass Amazon SWF die perfekte Grundlage für Synapse darstellte. Das Team nutzte das AWS Flow Framework zum Programmieren eines übergeordneten Workflows mit einem Auslösungsschritt gefolgt von zwei Verarbeitungsschritten, die als weiterer Workflow definiert wurden. Im Auslösungsschritt fragt ein Web-Crawler die GEO-Website ab, um Datensätze von Interesse zu finden, und lädt die Metadaten für jeden Datensatz herunter. Für jeden Datensatz wird programmgesteuert eine neue Workflow-Instanz zum Ausführen der Verarbeitungsschritte erstellt. Da Amazon SWF Kunden erlaubt, Millionen gleichzeitiger Workflow-Ausführungen geöffnet zu haben, können diese Datensätze allesamt parallel verarbeitet werden. Dadurch werden die Berechnungsanforderungen mehrerer gleichzeitiger Benutzer unterstützt. Bei jeder Workflow-Ausführung werden beim Indizierungsschritt zunächst Metadaten und Web-Links in Synapse hochgeladen, die auf GEO zeigen. Im Qualitätskontrollschritt werden die unformatierten Daten aufbereitet und anschließend in Synapse hochgeladen.

sage-bionetworks-3-arch-diagram

Die übergreifende Koordinationslogik wurde in Java erstellt, die Crawler- und Qualitätskontrolllogik jedoch wurde von Wissenschaftlern unabhängig in R und Perl geschrieben. Die Koordinationslogik wurde mithilfe des AWS Flow Framework so geschrieben, als handele es sich um ein Java-Programm mit einem Thread. Das Framework arbeitet mit dem Service zusammen, um ihn in verteilte, asynchrone Aufgaben aufzuteilen. Die Crawler- und Qualitätskontrolllogik wurde von Wissenschaftlern unabhängig in R und Perl geschrieben und auf heterogenen Rechenressourcen ausgeführt. Mithilfe von Amazon SWF-Aufgabenlisten kann Synapse die Arbeitsspeicheranforderungen für jede Ausführung basierend auf der Größe des zu verarbeitenden Datensatzes angeben. Amazon SWF leitet Aufgaben an entsprechend dimensionierte Server weiter, auf denen die Qualitätskontrolllogik ausgeführt wird. Amazon SWF erleichtert das Erfassen von Ablaufverfolgungen der Ausführung, auch wenn die Ausführung selbst verteilt ist. Diese Ablaufverfolgungen können stets über die AWS Management Console analysiert werden. Mithilfe der AWS Management Console können Synapse-Ingenieure Ergebnisse abgleichen und protokollierte Informationen ausführungsbezogen überprüfen.

Mit Amazon SWF kann Synapse nun Algorithmen zur Datenanalyse, die von Wissenschaftlern in verschiedenen Programmiersprachen geschrieben wurden, parallel auf einer heterogenen Gruppe von Servern ausführen. Sage Bionetworks geht davon aus, dass die Einrichtung eines minimalen Abstimmungs-Frameworks in Synapse über 100 000 USD allein an Software-Entwicklungsarbeit und noch mehr kosten würde, sobald der Abstimmungsbedarf zunimmt. Amazon SWF nimmt der Organisation die Komplexität einer verteilten Koordination ab und ermöglicht ihr, sich auf ihre Hauptaufgabe zu konzentrieren. Je weiter Synapse von Sage Bionetworks zu einer wissenschaftlichen EDV-Plattform mit sozialer Interaktion entwickelt wird, desto mehr werden andere der leistungsstarken Funktionen in Amazon SWF und AWS Flow Framework zum Einsatz kommen, ohne Zeit für ihre Entwicklung aufwenden zu müssen.

Brig Mecham ist einer der Wissenschaftler, der mit Amazon SWF Milliarden von biologischen Messungen verarbeitet, die das Potenzial in sich bergen, wichtige Aspekte komplexer menschlicher Krankheiten wie Krebs, Alzheimer und Diabetes preiszugeben. Mecham meinte: "Von all den Verbesserungen, die der Einsatz von Amazon SWF für unsere Rechenplattform gebracht hat, ist die wichtigste Errungenschaft, dass Amazon SWF uns ermöglicht hat, Daten schnell und effizient für ihren eigentlichen Zweck zu nutzen: Therapien für Krankheiten beim Menschen zu finden".

Weitere Informationen finden Sie unter http://sagebase.org/synapse-overview/.