Unsere lncRNA-Analyse erfordert sehr rechenintensive Verarbeitung und Integration. Mithilfe von AWS können wir schnell über 1 000 oder mehr Knoten rechnen, was unseren Zeitrahmen für Gensequenzierungsanalysen von mehreren Wochen auf wenige Tage verkürzt. 
Dr. Mitch Guttman Assistant Professor, Abteilung für Biologie und Biological Engineering

Bei Guttman Lab for lncRNA Biology am kalifornischen Institut für Technologie (Caltech) handelt es sich um ein vom namhaften Wissenschaftler Dr. Mitch Guttman geführtes Forschungslabor. Er leitet ein Team von Wissenschaftlern, die eine neue Klasse von Genen namens lncRNAs, kurz für nicht-kodierte RNA, erforschen. Mithilfe eines Genomikkonzeptes und Biochemie, Molekularbiologie, Zellbiologie und computergestützter Biologie erforschen Guttman und sein Team, wie lncRNAs Protein- und DNA-Moleküle in der Zelle ordnen, um präzise Genexpression zu steuern.

Als Dr. Guttman 2013 ans Caltech kam, wollte er sicherstellen, dass sein Forschungsteam über ein HPC-Cluster verfügt, das elastisch und flexibel ist. "Als wir uns Gedanken über ein Cluster für unser Labor machten, wussten wir, dass es schwankende Rechenanforderungen unterstützen musste", so Guttman. "Manchmal brauchen wir 1 000 Rechenknoten und manchmal nur 10. Es kommt auf die Datenverfügbarkeit an und darauf, in welcher Forschungsphase wir uns bei einem Projekt befinden. Und die Konvergenz mehrerer Projekte gleichzeitig kann diese Anzahl sogar noch weiter erhöhen."

Im Labor wollte man jedoch nicht ein lokales Cluster erstellen müssen, um die eigenen Anforderungen erfüllen zu können. "Kalifornien zählt du den Bundesstaaten mit den höchsten Immobilien- und Elektrizitätskosten, also bereiteten uns die Kosten für die Erstellung unseres eigenen Clusters vor Ort Sorgen", so John Lilley, leitender Administrator für Informationsmanagement-Systeme und -Dienste des Caltech. "Wir wollten außerdem unsere Zeit nicht mit der Verwaltung und Wartung des Clusters verbringen."

Außerdem wollten Guttman und sein Team sicherstellen, dass sie Cluster-Anmeldeinformationen einfach verwalten können. "Wir wollten in der Lage sein, Cluster-Benutzerkonten von einem zentralen Standort aus zu aktivieren und deaktivieren, ohne uns darüber Sorgen machen zu müssen, dass wir Informationen auf einer der Maschinen übersehen könnten", so Lilley.

Caltech hatte bereits seinen gesamten Webauftritt in die AWS-Cloud-Plattform (Amazon Web Services) verschoben, und das Guttman Lab entschied sich außerdem für die Verwendung von AWS, um sein HPC-Cluster zu unterstützen. "Wir waren auf der Suche nach einem Weg, um die Cloud für unsere Rechenressourcen zu nutzen, und AWS war die beste Wahl, weil es die Elastizität, Flexibilität und Kosteneinsparungen bot, die wir suchten", so Lilley.

Das Guttman Lab nutzt ein HPC-Cluster, das Computer umfasst, die mit einer Amazon Virtual Private Cloud (Amazon VPC) verbunden sind, durch die das Labor einen logisch isolierten Abschnitt der AWS-Cloud bereitstellen kann, um AWS-Ressourcen in einem definierten virtuellen Netzwerk auszuführen. Forscher in Trocken- und Nasslaboren gewinnen Daten aus der Gensequenzierung und speichern diese in ein GlusterFS-Dateisystem in der Amazon VPC. Die Forscher greifen mithilfe einer gemeinsam genutzten AWS-basierten Linux-Workstation mit Authentifizierung über Simple AD, einem für Active Directorys kompatiblen Verzeichnis vom AWS Directory Service, auf die Daten zu.

Das Labor nutzt außerdem den verwalteten Desktop Computing-Service Amazon WorkSpaces für Nicht-Linux-Nutzer. "Wir wollten unseren Windows-Nutzern die Möglichkeit bieten, sich von ihren Trockenlabor-PCs mit Amazon WorkSpaces zu verbinden und vom selben Datenzugang wie Linux-Nutzer zu profitieren", so Lilley. "Und wir können Simple AD nutzen, um diesen Zugang einfach zu verwalten." Das Labor nutzt Amazon Elastic Compute Cloud (Amazon EC2) Instances für seine GlusterFS Nodes. Für die Bereitstellung und Wartung seines HPC-Clusters auf AWS nutzt das Labor ein CfnCluster Framework. Mithilfe dieses Clusters entwickelt das Forschungsteam computergestützte Tools und statistische Methoden zur Analyse experimenteller Daten.

Mit AWS profitiert das Guttman Lab nun von der Elastizität, die es für die Verwaltung seiner schwankenden Rechenanforderungen braucht. "Wir mussten nicht unser eigenes physisches Cluster erstellen, um unsere schwankende Datenverarbeitungsnutzung zu verwalten, weil AWS für uns automatisch skaliert", so Lilley. Guttman fügt hinzu: "Wir müssen nun keine Zeit für das Priorisieren von Projekten im Vorhinein aufwenden, und wir wissen, wir werden genug Rechenleistung haben, ohne alle paar Jahre die Hardware erneuern zu müssen. Wir können außerdem aktiv neue Forschungsmethoden entwickeln und testen. AWS ist definitiv ein wichtiger Baustein für unser Labor."

Das Labor verfügt außerdem über die nötige Flexibilität, um bei Bedarf problemlos weitere Rechenressourcen hinzuzufügen. "Wir mussten vor Kurzem unser GlusterFS-System von 5 Terabyte auf 24 Terabyte erweitern, und wir konnten dies bewerkstelligen, ohne neue Hardware kaufen zu müssen", so Lilley. "Wir haben einfach mehr Amazon EC2 Nodes hinzugefügt und unseren Cloud-Speicher erhöht – das alles hat nur eine Stunde gedauert. Bisher hätte das Wochen gedauert, weil es Diskussionen über den Kaufpreis für die Hardware gegeben hätte, und dann hätten wir uns um die Beschaffung, Installation und das Testen kümmern müssen."

Außerdem können die Forscher im Labor mithilfe der AWS-Cloud lncRNA-Daten schneller analysieren. "Unsere lncRNA-Analyse erfordert sehr rechenintensive Verarbeitung und Integration", so Guttman. "Mithilfe von AWS können wir schnell über 1 000 oder mehr Knoten rechnen, was unseren Zeitrahmen für Gensequenzierungsanalysen von mehreren Wochen auf wenige Tage verkürzt. Mit der begrenzten Kapazität wäre dies zuvor nicht möglich gewesen."

Das Labor konnte außerdem Kosten senken, indem Amazon EC2 Spot Instances verwendet wurden, um für überschüssige Amazon EC2 Rechenkapazität zu bieten. "Angesichts der elastischen Rechenfunktionen, die wir dank AWS erhalten, sowie der finanziellen Wirtschaftlichkeit der EC2 Spot Instances, ist dieses Cluster bei Weitem kostengünstiger als alles, was wir selber erstellen hätten können", so Guttman.

Mithilfe von Amazon WorkSpaces und Simple AD kann das Guttman Lab den Zugang zu seinem HPC-Cluster problemlos verwalten. "Als wir mit dem Cluster begannen, war es eine große Herausforderung, die Informationen vom Linux-Desktop mit den Management Hosts und dem CfnCluster zu synchronisieren", so Lilley. "Mit dem in das Cluster integrierten Simple AD haben wir viel Zeit gespart, da wir unsere Konten von einem zentralen Standort aus aktivieren und deaktivieren können. Simple AD hilft uns dabei, in der gesamten Umgebung alles konsistent zu halten."

Caltech plant, AWS in weiteren Laboren und Abteilungen einzusetzen. "Wir nehmen das, was wir auf AWS erstellt haben, und bringen es anderen Genomik-Forschern auf dem gesamten Campus", so Lilley. "Wir betrachten dies als Vorlage für die weitere Arbeit mit HPC am Caltech."

Für weitere Informationen zu Genomik in der Cloud, besuchen Sie bitte unsere Detailseite zu AWS Genomics.

Für weitere Informationen, wie AWS Sie bei der Verwaltung Ihres HPC-Clusters unterstützen kann, besuchen Sie bitte unsere Detailseite zu AWS High Performance Computing.