Das International Centre for Radio Astronomy Research (ICRAR) begann 2009 als Joint Venture zwischen der Curtin University und der University of Western Australia. Das ICRAR hat seinen Hauptsitz im westaustralischen Perth. Die 110 Mitarbeiter arbeiten derzeit in einem internationalen Projekt zur Entwicklung des größten Radioteleskops der Welt, bekannt als Square Kilometre Array (SKA). Während seiner mehr als 50-jährigen Nutzungsdauer wird das SKA unsere Erkenntnisse über das Universum erweitern.

Sobald das SKA einsatzbereit ist, wird es pro Tag so viel Daten sammeln und verarbeiten, wie derzeit auf der ganzen Welt in einem Jahr produziert werden. Das SKA wird aus diesen Daten Himmelskarten erstellen, die Wissenschaftler bei der Untersuchung des Universums verwenden können. Ein einziges SKA-Bild könnte 600 TB ausmachen und jede Himmelskarte wird Tausende von Bildern benötigen.

„Wir müssen uns hinsichtlich der Rechenleistung mit Herausforderungen befassen, die unermesslich sind“, sagt Kevin Vinsen, Reasearch Associate Professor bei ICRAR. „Wenn das SKA im nächsten Jahrzehnt vollständig betriebsbereit ist, könnte es je nach der wissenschaftlichen Fragestellung zwischen 500 TB und 1 PB Bilddaten pro Tag erfassen. Schon die hohe Rechenleistung, die wir benötigen, entzieht sich jeder Vorstellungskraft.“

Um die Datenverarbeitungsressourcen für einige vorbereitende Experimente zu kumulieren, bildete ICRAR eine Community-Computing-Initiative mit der Bezeichnung theSkyNet. Mithilfe dieser Initiative kann das ICRAR freiwillig von der Öffentlichkeit bereitgestellte, überschüssige CPU-Zyklen nutzen, um einen Supercomputer zu simulieren. Vinsen und seine Kollegen verwenden dann diese von theSkyNet generierte Rechenleistung, um Bilder von Galaxien vom Teleskop Pan-STARRS1 in Hawaii im Rahmen des theSkyNet-Projekts zu analysieren.

Bei den auf Crowd-Sourcing basierenden Datenverarbeitungsprojekten stellt die Anpassung der physischen Serverkapazität an die Menge der ankommenden Daten oft eine Herausforderung dar. ICRAR musste die Experimente mit theSkyNet möglichst kostengünstig und flexibel durchführen, damit Vinsen und sein Team möglichst schnelle Ergebnisse bekamen.

Der skalierbare, bedarfsorientierte Aufbau von Amazon Web Services (AWS) war bestens geeignet für die Experimente zum Konzipieren des SKA. AWS kann die Ressourcen bereitstellen, die das ICRAR benötigt, um die umfangreichen Bilddatenmengen zu analysieren. Vinsen erhielt eine AWS-Förderung für das Bildungswesen, um theSkyNet im Jahr 2012 zu starten und das Projekt wuchs im Lauf des letzten Jahres bis auf 40 TeraFLOPs. Ein TeraFLOP entspricht einer Billion Gleitkommaoperationen pro Sekunde.

„Wir sehen Cloud-basierte Lösungen und Supercomputing-Einrichtungen als komplementär und erwarten, dass bei der Verarbeitung, Speicherung und Verbreitung der enormen Datenvolumen, die von den Observatorien der nächsten Generation generiert werden, beide von Bedeutung sein werden“, erklärt Associate Professor Vinsen. „Wir wollen flexibel sein und wir können AWS bequem anstelle eines eigenen Supercomputers für unsere Experimente verwenden.“

ICRAR verwendet Amazon Route 53, um alle externen Benutzer zu den theSkyNet-Websites umzuleiten. Die Wissenschaftler verwenden dann eine mittlere Amazon Elastic Compute Cloud-Instance (Amazon EC2) und bedarfsorientierte Amazon Machine Images (Amazon AMIs), um die auf Crowd-Sourcing basierenden CPU-Zyklen zu verarbeiten, und eine andere kleine Amazon EC2-Instance als Netzwerk-Dateiserver.

Zum Speichern von Bildverarbeitungsdaten verbindet ICRAR zwei Amazon Elastic Block Store-Volumes (Amazon EBS) mit 60 GB und archiviert die Daten mithilfe von Amazon Glacier. Das ICRAR-Team verwendet auch Amazon Simple Storage Service (Amazon S3) als Schlüsselspeicher, um Freiwilligen die Galaxien zu zeigen, bei deren Analyse die Verarbeitungsleistung ihrer PCs einen Beitrag leistet. Abbildung 1 zeigt theSkyNet in AWS. 

ICRAR-arch-diag

Abbildung 1: Die theSkyNet-Architektur in AWS.

ICRAR richtete das theSkyNet-Projekt in AWS in nur vier Tagen ein. Das Team kann jetzt schnell und effizient die Cloud-Infrastruktur erweitern, sobald die Öffentlichkeit weitere CPU-Zyklen zur Unterstützung der Initiative bereitstellt.

„Die Skalierbarkeit von AWS war enorm hilfreich“, meint Associate Professor Vinsen. „Ich kann bei Bedarf ohne viel Aufwand mehr Kapazität hinzufügen. Mit AWS können wir jeden Monat mehr als 150 GB Himmelsaufnahmen verarbeiten und mehr als 400 GB Daten speichern.“

Durch die Nutzung von Amazon S3 als Schlüsselspeicher kann ICRAR Hunderttausende öffentliche CPUs weltweit nahtlos indizieren und verwalten. Amazon ELB unterstützt ICRAR beim Verwalten des Datenflusses in die und aus der theSkyNet-Community.

ICRAR verwendet Amazon EBS, um mehr als 400 GB Bilddaten pro Monat zu speichern, während sie von der Community verarbeitet werden. Amazon EC2 bietet die Rechenkapazität, damit ICRAR Daten von 400 bis 500 Galaxien gleichzeitig analysieren kann.

Das Projekt hat sich als äußerst populär erwiesen und kurz nach der Migration in AWS haben Communitys aus Russland, Amerika und Australien die theSkyNet-Server von ICRAR überlastet. Associate Professor Vinsen benötigte daraufhin nur zwei Stunden, um zusätzliche Kapazitäten hinzuzufügen. „Andere Community-Computing-Projekte benötigten Tage, um sich von Überlastungen zu erholen, weil sie zusätzliche Infrastruktur-Ressourcen suchen mussten, um neue Server einzurichten“, sagt er. „Mit AWS kann ich einfach eine größere Instance bereitstellen.“

ICRAR beabsichtigt, AWS einzusetzen, um die kontinuierlichen Datenverarbeitungsanforderungen zukünftiger Experimente innerhalb von theSkyNet zu erfüllen.

Weitere Informationen, wie AWS Ihnen beim Erfüllen Ihrer Data-Anforderungen helfen kann, finden Sie auf unserer Detailseite zu Big Data: http://aws.amazon.com/de/big-data/.