L'International Centre for Radio Astronomy Research (ICRAR) è nato nel 2009 da una joint venture tra la Curtin University e la University of Western Australia. L'ICRAR ha sede a Perth e conta tra le proprie file 110 dipendenti, nell'ambito di uno sforzo internazionale per sviluppare il più grande radiotelescopio al mondo, progetto noto con il nome di Square Kilometre Array (SKA). Nei cinquant'anni in cui è previsto il suo funzionamento, lo SKA ci aiuterà ad espandere le nostre conoscenze sull'universo.

Quando sarà operativo, lo SKA raccoglierà ed elaborerà ogni giorno una quantità di dati provenienti dal cielo pari ai dati prodotti in tutto il mondo in un anno. Lo SKA impiegherà questi dati per creare mappe del cielo che gli scienziati potranno utilizzare per studiare l'universo. Una singola immagine proveniente dallo SKA potrà raggiungere i 600 TB, e ogni mappa del cielo dovrà essere creata utilizzando migliaia di immagini.

"Dobbiamo affrontare sfide di elaborazione incommensurabili" dice Kevin Vinsen, professore di ricerca associato presso l'ICRAR. "Quando sarà completamente operativo, nei prossimi dieci anni, in base alle esigenze di ricerca, lo SKA potrà raccogliere da 500 TB a 1 PB di immagini al giorno. La sola potenza di elaborazione grezza necessaria per farlo è inaudita".

Per accumulare risorse di calcolo sufficienti per eseguire una serie di esperimenti preliminari, l'ICRAR ha dato vita a un'iniziativa di elaborazione collettiva denominata theSkyNet. Grazie a questa iniziativa, l'ICRAR può impiegare i cicli di CPU inutilizzati degli utenti che si offrono come volontari, per simulare un supercomputer. Vinsen e i suoi colleghi utilizzano quindi la potenza di elaborazione generata da theSkyNet per analizzare immagini delle galassie provenienti dal telescopio Pan-STARRS1 situato alle Hawaii.

I progetti di elaborazione in crowdsourcing spesso devono affrontare problemi relativi a un'insufficiente capacità fisica del server in rapporto al volume di dati in entrata. All'ICRAR occorreva perciò sperimentare theSkyNet senza investimenti considerevoli e in modo flessibile e consentire a Vinsen e al suo team di ottenere risultati rapidi.

Date le caratteristiche di scalabilità e di dimensionamento di Amazon Web Services, AWS era la scelta più logica per gli esperimenti necessari per progettare lo SKA. AWS è infatti in grado di offrire le risorse che occorrono a ICRAR per analizzare gli enormi volumi di dati di imaging. Vinsen ha ottenuto un sovvenzionamento da AWS per l'istruzione per avviare theSkyNet nel 2012, e nell'ultimo anno il progetto è cresciuto fino a 40 teraFLOP. Un teraFLOP equivale a un milione di miliardi di operazioni a virgola mobile al secondo.

"Le soluzioni basate sul cloud e le funzioni di supercalcolo per noi sono complementari; ci aspettiamo che entrambe recitino un ruolo importante nei processi di elaborazione, storage e distribuzione del gigantesco volume di dati creati dalla nuova generazione di osservatori", spiega il professor Vinsen. "Vogliamo disporre della massima flessibilità ed è così facile utilizzare AWS per i nostri esperimenti invece di un supercomputer dedicato".

ICRAR usa Amazon Route 53 per instradare tutti gli utenti esterni sul sito theSkyNet. Gli scienziati usano quindi un'istanza Medium di Amazon Elastic Compute Cloud (Amazon EC2), diverse Amazon Machine Images (Amazon AMI) on demand per elaborare i cicli di CPU di theSkyNet in crowdsourcing e un'altra istanza Small di Amazon EC2 come file server di rete.

Per memorizzare i dati di imaging, l'ICRAR monta due volumi Amazon Elastic Block Store (Amazon EBS) da 60 GB e archivia i dati in Amazon Glacier. Il team di ICRAR usa inoltre Amazon Simple Storage Service (Amazon S3) come store per mostrare ai volontari le galassie che stanno aiutando ad analizzare offrendo la loro potenza di elaborazione. La figura 1 mostra theSkyNet in AWS. 

ICRAR-arch-diag

Figura 1: l'architettura di theSkyNet in AWS.

L'ICRAR ha impostato il progetto theSkyNet in AWS impiegando solo quattro giorni. Il team può così espandere in modo rapido ed efficiente l'infrastruttura cloud in base al volume di pubblico che si offre volontario per offrire la propria CPU a supporto dell'iniziativa.

"La scalabilità di AWS è stata di enorme aiuto", afferma il professore associato Vinsen. "Posso aumentare la capacità in base alle esigenze con il minimo sforzo. L'utilizzo di AWS ci consente di elaborare più di 150 GB di immagini del cielo e archiviare oltre 400 GB di dati di imaging al mese".

Utilizzando Amazon S3 come store chiave-valore, l'ICRAR può indicizzare e gestire l'input di migliaia centinaia di migliaia di CPU pubbliche in tutto il mondo in modo ottimizzato. Amazon ELB aiuta ICRAR a gestire il flusso di dati da e verso la community di theSkyNet.

ICRAR impiega Amazon EBS per memorizzare fino a 400 GB di dati di imaging al mese, interamente elaborati dalla community. Amazon EC2 fornisce la capacità di elaborazione per analizzare i dati provenienti da 400/500 galassie simultaneamente.

Il progetto si è rivelato estremamente popolare e poco dopo la migrazione in AWS, le community attive in Russia, America e Australia hanno sovraccaricato il server theSkyNet di ICRAR. Tuttavia, il professor Vinsen ha impiegato solo due ore per risolvere la situazione aggiungendo la capacità necessaria. "Gli altri progetti di elaborazione collettiva hanno recuperato diversi giorni dopo sovraccarichi di questo tipo, perché dovevano trovare ulteriori risorse infrastrutturali per attivare nuovi server", spiega. "Con AWS, è sufficiente effettuare il provisioning di un'istanza di maggiori dimensioni".

ICRAR progetta di utilizzare AWS per soddisfare i requisiti di elaborazione dei futuri esperimenti in theSkyNet.

Per ulteriori informazioni su come AWS può soddisfare le tue necessità in relazione ai dati, visita la pagina dei dettagli sui Big Data: http://aws.amazon.com/big-data/.