El Centro Internacional de Investigaciones Radioastronómicas (ICRAR) se fundó en 2009 como una empresa conjunta entre la Universidad de Curtin y la Universidad de Australia Occidental. Con sede en Perth (Australia Occidental), los 110 empleados del ICRAR actualmente forman parte de un esfuerzo internacional para desarrollar el mayor radiotelescopio del mundo, conocido como el conjunto de antenas de un kilómetro cuadrado (SKA). Durante su vida útil de más de 50 años, el SKA nos permitirá expandir nuestra comprensión del universo

Una vez que esté operativo, se espera que el SKA recopile y procese tantos datos del cielo cada día como los que se producen en todo el mundo en un año. El SKA utilizará estos datos para trazar mapas del cielo que los científicos podrán usar para estudiar el universo. Una sola imagen del SKA puede tener un tamaño de hasta 600 TB, y cada mapa celeste necesitará miles de imágenes.

"Necesitamos abordar retos informáticos que son incalculables", comenta Kevin Vinsen, profesor titular de investigación en el ICRAR. "Cuando esté totalmente operativo durante la próxima década, y en función del caso científico, el SKA podría recopilar entre 500 TB y 1 PB de datos de imágenes cada día. La enorme cantidad de potencia de cómputo bruta que necesitamos para hacerlo es inconcebible".

Para acumular recursos informáticos para una serie de experimentos preliminares, el ICRAR ha creado una iniciativa de informática comunitaria denominada theSkyNet. Esta iniciativa permite al ICRAR utilizar ciclos de CPU disponibles que ponen a disposición voluntarios para simular un superordenador. Posteriormente, Vinsen y sus compañeros utilizan la potencia de cómputo generada por theSkyNet para analizar imágenes de galaxias del telescopio Pan-STARRS1 en Hawái como parte del proyecto theSkyNet.

Con frecuencia los proyectos de informática en colaboración masiva se enfrentan a problemas para equiparar la capacidad de los servidores físicos con la carga de datos entrantes. El ICRAR necesitaba realizar experimentos utilizando theSkyNet de manera rentable y flexible que permitieran a Vinsen y a su equipo obtener resultados con rapidez.

La naturaleza escalable y bajo demanda de Amazon Web Services (AWS) lo convertía en una opción lógica para los experimentos necesarios para diseñar el SKA. AWS puede proporcionar los recursos que el ICRAR necesita para analizar enormes cantidades de datos de imágenes. Vinsen obtuvo una beca de AWS en educación para comenzar el proyecto theSkyNet en 2012, que ha aumentado hasta 40 teraFLOPs durante el pasado año. Un teraFLOP equivale a un billón de operaciones con coma flotante por segundo.

"Consideramos que las soluciones en la nube y las instalaciones de supercomputación son complementarias, y esperamos que ambas desempeñen su función en el procesamiento, almacenamiento y difusión de enormes volúmenes de datos creados por la próxima generación de observatorios", explica el profesor titular Vinsen. "Deseamos ser flexibles y podemos usar AWS con facilidad para nuestros experimentos en lugar de un superordenador dedicado".

El ICRAR utiliza Amazon Route 53 para direccionar a todos los usuarios externos a sus sitios web de theSkyNet. Posteriormente los científicos utilizan una instancia de tamaño medio de Amazon Elastic Compute Cloud (Amazon EC2) e Imágenes de máquina de Amazon (Amazon AMI) bajo demanda para procesar los ciclos de CPU en colaboración masiva de theSkyNet, y otra instancia pequeña de Amazon EC2 como servidor de archivos de red.

Para almacenar datos de imágenes, el ICRAR monta dos volúmenes de Amazon Elastic Block Store (Amazon EBS) de 60 GB y archiva los datos utilizando Amazon Glacier. El equipo del ICRAR también utiliza Amazon Simple Storage Service (Amazon S3) como un almacén clave para mostrar a los voluntarios las galaxias que la potencia de procesamiento de sus equipos ayuda a analizar. En la figura 1 se muestra theSkyNet en AWS. 

ICRAR-arch-diag

Figura 1: arquitectura de theSkyNet en AWS.

El ICRAR configuró el proyecto theSkyNet en AWS en solo cuatro días. Ahora el equipo puede ampliar de manera rápida y eficiente la infraestructura en la nube a medida que los voluntarios proporcionan más ciclos de CPU para respaldar la iniciativa.

“La escalabilidad de AWS nos ha resultado enormemente útil –afirma el profesor universitario Vinsen–. Puedo añadir más capacidad según lo necesite sin apenas complicaciones. Gracias a AWS, podemos procesar más de 150 GB de imágenes del cielo y almacenar más de 400 GB de datos de imágenes todos los meses”.

Mediante el uso de Amazon S3 como almacén de valor clave, el ICRAR puede indexar y administrar sin problemas datos de cientos de miles de CPU públicas en todo el mundo. Amazon ELB ayuda al ICRAR a administrar el flujo de datos de entrada y salida de la comunidad de theSkyNet.

El ICRAR utiliza Amazon EBS para almacenar más de 400 GB de datos de imágenes al mes, a medida que los procesa la comunidad. Amazon EC2 proporciona la capacidad de computo para que el ICRAR analice datos de entre 400 y 500 galaxias simultáneamente.

El proyecto ha demostrado ser muy popular y poco después de la migración a AWS, comunidades online de Rusia, América y Australia sobrecargaron el servidor de theSkyNet del ICRAR. Sin embargo, el profesor titular Vinsen solo tardó dos horas en aumentar la capacidad. "Otros proyectos de informática comunitaria han tardado días en recuperarse de las sobrecargas porque tienen que encontrar más recursos de infraestructura para introducir nuevos servidores", explica. "Con AWS, yo mismo puedo aprovisionar una instancia mayor".

El ICRAR tiene previsto utilizar AWS para satisfacer los requisitos informáticos constantes de experimentos futuros en theSkyNet.

Para obtener más información sobre cómo AWS puede ayudarle a satisfacer sus necesidades de datos, visite nuestra página de detalles sobre big data: http://aws.amazon.com/big-data/.