AWS Public Sector Blog

The Italian National Institute of Astrophysics Explores the Universe with the Cloud

Italian text below

The National Institute for Astrophysics (Istituto Nazionale di Astrofisica or INAF) is an Italian institution that conducts scientific research in astronomy and astrophysics. INAF research ranges from the study of the planets and minor bodies of the solar system to the large-scale structure of the Universe.

Recently, INAF has been involved in two large projects where they turned to the Amazon Web Services (AWS) Cloud: the ESO Extremely Large Telescope (E-ELT) and Cherenkov Telescope Array (CTA).

Is there complex life outside of Earth?

The first project is the design of the ultra-high resolution spectrograph HiReS for the ESO Extremely Large Telescope (E-ELT). Thanks to the unprecedented quality of the data and the accurate structural stability, researchers will be able to detect bio signatures in the atmosphere of planets outside of our solar system for the first time. The aperture of the European Extremely Large Telescope will give them the ability to detect the presence of complex life outside of Earth and to complete a census of the composition of Earth-like planets that orbit their host star at a distance that allows it to sustain life. This system is complex and the simulations required to assess its potentiality produce TBs of data each.

The second project involves scientific simulations of the Cherenkov Telescope Array (CTA), a large facility that will observe galactic and extragalactic sources that irradiate photons in the band of gamma rays, allowing for the study of ultra-high energy physics. As in the previous scenario, each simulation of CTA collects TBs of data in each run.

Both projects require a large amount of computational power to handle TBs of data. Each simulation of HIRES requires a million GPU hours and produces more than 5 TB of raw data, while in the case of CTA, each simulation requires more than 300,000 CPU/hours to produce events and process data on the cloud for more than 60 TB each time.

INAF evaluated the possibility of procuring the necessary hardware to perform these computing tasks, but the Total Cost of Ownership (TCO), coupled with the on-demand nature of this research, led them to the cloud.

AWS Cloud for on-demand computing

For both E-ELT and CTA, the team used Amazon Elastic Compute Cloud (Amazon EC2) to perform the large-scale calculations seen in Figure 1 and 2. For both projects, INAF used Amazon Simple Storage Service (Amazon S3) for the storage of the processed data, and AWS Lambda and Amazon Simple Queue Service (Amazon SQS) for managing the flow and tasks between EC2 instances. The availability of long-term storage with Amazon Glacier allowed the team to store data cost-effectively.

Figure 1 – AWS Architecture for ESO-HiReS simulation. Input coming from the spectrograph design are uploaded to Amazon S3. Then, AWS Lambda initiates EC2 g2x.large instances to perform a CUDA simulation and then the results are stored back on S3.

Figure 2 – AWS architecture for CTA simulations. As in the case of HIRES, the architecture provides triggers from S3 as soon as the input for simulations are uploaded. An Amazon SQS FIFO queue is used to dispatch simulations between EC2 instances. Then, the processed data is sent back to S3. They make use of Docker to containerize the software and Amazon Glacier for long-term storage.

“Thanks to AWS, we were able to concentrate on science and simulations. We were able to scale as soon as the project required us to do so. It was critical to obtain the required power quickly,” said Marco Landoni, Reasearch Fellow, INAF. “AWS services like SQS and Lambda allowed us to deliver the architecture in the fastest way possible, producing hundreds of TB of data and consuming millions of CPU or GPU hours with almost no impact on the allocated budget for each project.”

Learn more about the AWS Region in Italy that will open in early 2020.


Italian Version

L’Istituto Nazionale di Astrofisica italiano esplora l’universo grazie al cloud

L’Istituto Nazionale di Astrofisica (INAF) è un’istituzione italiana che conduce ricerche scientifiche nei campi dell’astronomia e dell’astrofisica. La ricerca dell’INAF spazia dallo studio dei pianeti e dei corpi minori del sistema solare alla struttura dell’universo in larga scala.

Recentemente, l’INAF è stato coinvolto in due grandi progetti per i quali si è rivolto al cloud di Amazon Web Services (AWS): l’ESO Extremely Large Telescope (E-ELT) e il Cherenkov Telescope Array (CTA).

Esiste la vita complessa al di fuori della Terra?

Il primo progetto riguarda il design dello spettrografo ad altissima risoluzione HiReS per l’ESO Extremely Large Telescope (E-ELT). Grazie alla qualità senza precedenti dei dati e alla precisa stabilità strutturale, i ricercatori saranno in grado di rilevare per la prima volta biomarcatori nell’atmosfera dei pianeti che orbitano attorno a stelle della nostra Galassia. La grande apertura dell’Extremely Large Telescope europeo darà agli scienziati la possibilità di rilevare la presenza di vita complessa al di fuori della Terra e di completare un censimento della composizione dei pianeti simili alla Terra che orbitano intorno alla loro stella ospite ad una distanza che permetta di sostenere la vita. Il sistema è complesso e le simulazioni necessarie per valutarne la potenzialità producono svariati TB di dati.

Il secondo progetto riguarda le simulazioni scientifiche del Cherenkov Telescope Array (CTA), un grande osservatorio internazionale che osserverà sorgenti galattiche ed extragalattiche nella banda dei raggi gamma per lo studio della fisica delle altissime energie. Come nel caso precedente, ogni simulazione produce TB di dati da analizzare per ottenere risultati scientificamente significativi.

Entrambi i progetti richiedono una grande potenza di calcolo per gestire i TB di dati prodotti. Ogni simulazione di HIRES richiede un milione di ore di GPU CUDA core e produce più di 5 TB di dati grezzi, mentre nel caso del CTA, ogni simulazione richiede più di 300.000 ore di CPU per produrre gli eventi ed elaborare i dati sul cloud con più di 60 TB per ogni sessione.

L’INAF ha valutato la possibilità di procurarsi l’hardware necessario per eseguire queste attività di calcolo ma il costo totale di proprietà (TCO) e la natura on-demand di questa ricerca li hanno spinti a scegliere il cloud.

Il Cloud AWS per il calcolo on-demand

Il team ha utilizzato Amazon Elastic Compute Cloud (Amazon EC2) per l’esecuzione dei calcoli su larga scala descritti nelle figure 1 e 2, sia per l’E-ELT che per CTA. Per entrambi i progetti, l’INAF ha utilizzato Amazon Simple Storage Service (Amazon S3) per l’archiviazione dei dati elaborati e AWS Lambda e Amazon Simple Queue Service (Amazon SQS) per la gestione del flusso e delle attività tra le istanze EC2. La disponibilità di archiviazione a lungo termine offerta da Amazon Glacier ha permesso al team di memorizzare i dati in modo economico.

“Grazie ad AWS abbiamo potuto concentrarci sulla scienza e sulle simulazioni. Siamo stati in grado di scalare il progetto non appena ne abbiamo avuto bisogno. Era fondamentale ottenere rapidamente la potenza richiesta”, ha dichiarato Marco Landoni, ricercatore dell’INAF. “I servizi AWS come SQS e Lambda ci hanno permesso di implementare l’architettura nel modo più veloce possibile e di produrre centinaia di TB di dati e consumare milioni di ore di CPU o GPU CUDA core con un impatto quasi nullo sul budget stanziato per ogni progetto”.

Ulteriori informazioni sulla Regione AWS che aprirà in Italia all’inizio del 2020.

AWS Public Sector Blog Team

AWS Public Sector Blog Team

The Amazon Web Services (AWS) Public Sector Blog team writes for the government, education, and nonprofit sector around the globe. Learn more about AWS for the public sector by visiting our website (https://aws.amazon.com/government-education/), or following us on Twitter (@AWS_gov, @AWS_edu, and @AWS_Nonprofits).