In der Abteilung für Informatik der San Francisco State University sind etwa 400 Studenten und 100 graduierte Studenten eingeschrieben. Sie befasst sich mit Ausbildung und Forschung. Die Abteilung arbeitet derzeit an einem maschinellen Lernprojekt mit der Bezeichnung FEATURE in Zusammenarbeit mit der Stanford Helix Group und unterstützt vom National Institute of Health, (NIH Grant LM05652).

FEATURE nutzt das maschinelle Lernen, um funktionelle Bindungsstellen von Proteinen und anderen dreidimensionalen (3D) Molekülstrukturen zu prognostizieren. Professor Dragutin Petkovic erklärt: „Massive parallele Optimierung des maschinellen Lernens umfasst die Anwendung von Support Vector Machine-Algorithmen (SVM) auf Tausende von Übungs-Datensets, die aus Hunderttausenden von Vektoren bestehen. Optimale SVN-Parameter werden durch mit Brute-Force parallelisierte Rastersuchen mit k-facher Kreuzvalidierung ermittelt. Diese Optimierung umfasst die unabhängige und vielfache Wiederholung ähnlicher Operationen.“ In Abbildung 1 weiter unten wird das FEATURE-Projekt veranschaulicht.

San Francisco State University – AWS-Fallstudie – Projektdetails

Abbildung 1: Details zum FEATURE-Projekt

FEATURE hat wie andere innovative wissenschaftliche Projekte einen unersättlichen Appetit für High Performance Computing und die Forschungswissenschaftler des Projekts haben herausgefunden, dass die Nachfrage nach Rechenleistung zur Erforschung detaillierter Aspekte biologischer Moleküle schon bald die Fähigkeiten der Universität übersteigen wird. Die Computing-Ressourcen werden an der San Francisco State University gemeinsam genutzt und große Nachfrage bedeutet, dass die Forscher Größe und Umfang ihrer Fragen neu gestalten oder lange Wartezeiten auf verfügbare Ressourcen in Kauf nehmen mussten. Außerdem führen diese Einschränkungen zu langen Wartezeiten und Ergebnissen, was zur Folge hat, dass die Experimente, die die Wissenschaftler ausführen können, einer arbiträren Auswahl unterliegen.

Die Wissenschaftler brauchten ihre Datenverarbeitungsressourcen nur gelegentlich. Somit war es nicht kosteneffizient, Ressourcen in großem Umfang zu erwerben und für unregelmäßige Nutzung zu unterhalten. Als das Forscherteam die verfügbaren Optionen bewertete, stellte es fest, dass der bedarfsorientierte Zugriff auf Datenverarbeitungsressourcen von Amazon Web Services (AWS) die Zwecke erfüllt. „Das Modell der nutzungsabhängigen Bezahlung bei Amazon Elastic Compute Cloud (Amazon EC2) war die am besten geeignete Option gegenüber dem Erwerb eines großen Servers für den Standort“, sagt Professor Petkovic.

Das Forscherteam entwickelte FEATURE unter anderem mit den Tools C, C++, Perl und Python. Die Cluster wurden mit MIT StarCluster in Amazon EC2 bereitgestellt, einem automatisierten Bereitstellungs-Tool für wissenschaftliches High Performance Computing. Die Protein Databank und die Proteinstruktur-Datenbanken wurden in Amazon Elastic Block Store-Volumes (Amazon EBS) geladen, damit sie einfach verwaltet und wiederverwendet werden können. Der Zugriff erfolgt über ein spezielles Amazon Linux Machine Image (Amazon Linux AMI). Aus Abbildung 2 ist die Architektur des FEATURE-Projekts ersichtlich.

San Francisco State University – AWS-Fallstudie – Architekturdiagramm

Abbildung 2: Architektur des FEATURE-Projekts

Um die Leistung des FEATURE-Projekts auf AWS bewerten zu können, verwendete das Team Software-Profilerstellung und E/A-Benchmarking, um die Leistungsmetriken zu ermitteln. Petkovic erklärt: „Das Team hat einen kleinen, internen Cluster mit 40 Knoten. Wir verglichen dies mit der Cloud und fanden heraus, dass Amazon EC2 hinsichtlich der CPU-Zyklen pro Kosteneinheit weit überlegen war, auch weil es bei Bedarf skaliert werden kann. Experimente, für die wir Wochen brauchten, laufen jetzt über Nacht. Das bedeutet, dass unsere Forscher immer am Ball bleiben und nicht auf Ergebnisse warten. AWS hat unsere Bearbeitungszeiten für wissenschaftliche Anfragen erheblich verkürzt.“

Das Team von Professor Petkovic schätzte, dass seine Datenverarbeitungskosten auf ein Zwanzigstel reduziert wurden. „Wir schätzen, dass sich die Kosten für einen kleinen, internen Cluster auf 1,71 USD pro Computer-Einheit pro Stunde belaufen. Im Vergleich dazu kostet uns Amazon EC2 nur 0,08 USD pro Equivalent Elastic Computer Unit (ECU) pro Stunde“, erläutert er. Außerdem konnten Petkovic und sein Team Abrechnungsalarme und andere Tools zur Kostenoptimierung nutzen, die AWS zum Planen und Verwalten der Kosten der Servicenutzung bereitstellt.

„AWS bietet einen bedarfsorientierten Zugriff auf Hochleistungsressourcen, wodurch wir uns auf die Wissenschaft konzentrieren können, anstatt uns mit der Verwaltung der Server-Infrastruktur befassen zu müssen. AWS hilft uns, die Obergrenze bei Größe und Umfang unserer Experimente mit dem maschinellen Lernen anzuheben“, sagt Petkovic.

Weitere Informationen zur Genomforschung in der Cloud finden Sie auf unserer Detailseite zur Genomforschung auf AWS.

Informationen darüber, wie Ihnen AWS bei Ihren High Performance Computing (HPC)-Anforderungen helfen kann, finden Sie auf unserer Detailseite zu HPC.