L'International Centre for Radio Astronomy Research (ICRAR) a été créé en 2009 en tant que joint-venture entre l'université Curtin et l'université d'Australie-Occidentale. Les 110 employés de l'ICRAR, situé à Perth, en Australie-Occidentale, participent actuellement à une initiative internationale de développement du plus gros radiotélescope du monde, connu sous le nom de Square Kilometre Array (SKA). Pendant sa durée de vie de plus de 50 ans, le SKA permettra d'approfondir notre connaissance de l'univers

Une fois opérationnel, le SKA devrait rassembler et traiter autant de données provenant du ciel chaque jour que le monde en produit actuellement chaque année. Le SKA se servira de ces données pour créer des cartes du ciel que les scientifiques pourront utiliser pour étudier l'univers. Une seule image du SKA pourrait représenter jusqu'à 600 To, et chaque carte du ciel nécessitera des milliers d'images.

« Nous devons relever des défis informatiques incommensurables », a affirmé Kevin Vinsen, professeur-chercheur adjoint à l'ICRAR. « Lorsqu'il sera pleinement opérationnel au cours de la prochaine décennie, en fonction de la science, le SKA pourrait collecter entre 500 To et 1 Po de données d'imagerie chaque jour. Rien que l'intensité de la puissance de calcul brute dont nous avons besoin pour parvenir à cela est extraordinaire. »

Afin d'amasser des ressources de calcul pour une série d'expériences préliminaires, l'ICRAR a lancé une initiative de calcul informatique communautaire appelée theSkyNet. Ce projet permet à l'ICRAR d'utiliser des cycles CPU mis à disposition par le public afin de simuler un superordinateur. Vinsen et ses collègues utilisent alors la puissance de calcul générée par theSkyNet pour analyser des images de galaxies issues du télescope Pan-STARRS1 à Hawaï dans le cadre du projet theSkyNet.

Les projets de calcul informatique approvisionné à grande échelle entraînent souvent des problèmes d'adaptation de la capacité du serveur physique à la charge de données entrantes. Il fallait que l'ICRAR réalise des expériences à l'aide de theSkyNet de manière rentable et flexible afin que Vinsen et son équipe obtiennent rapidement des résultats.

La nature évolutive et l'offre à la demande d'Amazon Web Services (AWS) en a fait un choix logique pour les expériences nécessaires à la conception du SKA. AWS peut fournir les ressources dont l'ICRAR a besoin pour analyser de larges volumes de données d'imagerie. Vinsen a obtenu une subvention Enseignement AWS pour lancer l'initiative theSkyNet en 2012 et le projet s'est développé jusqu'à atteindre 40 téraFLOPS l'année dernière. Un téraflop équivaut à un billion d'opérations en virgule flottante par seconde.

« Nous considérons les solutions basées sur le cloud et les installations de calcul de haute performance comme étant complémentaires et pensons que ces deux éléments joueront un rôle dans le traitement, le stockage et la diffusion d'énormes volumes de données créées par les observatoires de nouvelle génération », déclare le professeur adjoint Vinsen. « Nous voulons être flexibles et nous pouvons facilement utiliser AWS pour nos expériences au lieu d'un superordinateur dédié. »

L'ICRAR a recours à Amazon Route 53 pour acheminer tous les utilisateurs externes vers ses sites Web theSkyNet. Les scientifiques utilisent alors une instance medium Amazon Elastic Compute Cloud (Amazon EC2) et des images machine Amazon à la demande (AMI Amazon) pour traiter les cycles CPU approvisionnés à grande échelle de theSkyNet, et une autre petite instance Amazon EC2 comme serveur de fichiers réseau.

Pour stocker les données d'imagerie, l'ICRAR montent deux volumes Amazon Elastic Block Store (Amazon EBS) de 60 Go et archive les données à l'aide d'Amazon Glacier. L'équipe ICRAR utilise également Amazon Simple Storage Service (Amazon S3) comme élément de stockage clé pour montrer aux volontaires les galaxies que la puissance de traitement de leurs PC aident à analyser. La figure 1 montre theSkyNet sur AWS. 

ICRAR-arch-diag

Figure 1 : l'architecture theSkyNet sur AWS.

L'ICRAR a élaboré le projet theSkyNet sur AWS en seulement quatre jours. L'équipe peut à présent développer rapidement et efficacement l'infrastructure de cloud, le public proposant davantage de cycles CPU pour soutenir l'initiative.

« L'évolutivité d'AWS s'est avérée très utile », a déclaré le professeur agrégé Vinsen. « Je peux ajouter très simplement davantage de capacités en fonction de mes besoins. Le recours à AWS nous a permis de traiter plus de 150 Go d'images du ciel et de stocker plus de 400 Go de données d'imagerie chaque mois. »

En utilisant Amazon S3 comme un élément de stockage de valeur fondamentale, l'ICRAR peut répertorier et opérer sans problème l'entrée de centaines de milliers de CPU publiques du monde entier. Amazon ELB aide l'ICRAR à opérer le flux de données allant vers et provenant de la communauté theSkyNet.

L'ICRAR utilise Amazon EBS pour stocker plus de 400 Go de données d'imagerie tous les mois, celles-ci étant traitées par la communauté. Amazon EC2 offre à l'ICRAR les capacités de calcul nécessaires pour analyser simultanément entre 400 et 500 galaxies.

Ce projet s'est révélé être très populaire et peu après la migration vers AWS, les communautés en ligne en Russie, en Amérique et en Australie ont surchargé le serveur theSkyNet de l'ICRAR. Cependant, il n'a fallu que deux heures au professeur adjoint Vinsen pour accroître la capacité. « Dans les autres projets de calcul informatique communautaire, cela a pris des jours pour se remettre de surcharges, car il a fallu trouver un plus grand nombre de ressources d'infrastructure pour lancer de nouveaux serveurs », a-t-il affirmé. « Avec AWS, il me suffit de mettre en service une plus grosse instance. »

L'ICRAR prévoit d'utiliser AWS pour répondre aux besoins en matière de calcul continu des futures expériences qui auront lieu au sein de theSkyNet.

Pour savoir comment AWS peut vous aider à répondre à vos besoins en matière de Data, consultez notre page consacrée au Big Data à l'adresse : http://aws.amazon.com/big-data/.