O International Centre for Radio Astronomy Research (ICRAR) foi fundado em 2009 como um empreendimento conjunto entre a Curtin University e a University of Western Australia. Com base em Perth, na Austrália Ocidental, os 110 funcionários do ICRAR hoje fazem parte do esforço internacional para desenvolver o maior rádio telescópio do mundo, conhecido como Square Kilometre Array (SKA). Durante seus mais de 50 anos de vida, o SKA ampliará o nosso entendimento sobre o universo

Depois de tornar-se operacional, a expectativa é de que o SKA reúna e processe um volume de dados por dia que atualmente o mundo produz em um ano. O SKA usará esses dados para fazer mapas do céu que os cientistas possam usar para estudar o universo. Uma única imagem do SKA pode chegar a até 600 TB e cada mapa do céu precisará de milhares de imagens.

"Precisamos solucionar desafios computacionais imensuráveis", diz Kevin Vinsen, Professor associado do setor de pesquisa no ICRAR. "Quando tornar-se totalmente operacional na próxima década, dependendo do processo científico, o SKA poderá coletar entre 500 TB e 1 PB de dados de imagens todos os dias. A enorme quantidade de poder computacional bruta necessária para fazer isso é extraordinária."

Para acumular recursos computacionais para uma série de testes preliminares, o ICRAR formou uma iniciativa de computação comunitária chamada theSkyNet. Essa iniciativa permite que o ICRAR use ciclos de CPU sobressalentes oferecidos pelo público para simular um supercomputador. Vinsen e seus colegas usam o poder computacional gerado pela theSkyNet para analisar imagens de galáxias geradas pelo telescópio Pan-STARRS1 no Havaí, como parte do projeto theSkyNet.

Geralmente, projetos de computação colaborativos enfrentam problemas para corresponder a capacidade dos servidores físicos com a carga de dados recebida. O ICRAR precisava executar testes usando a theSkyNet de um maneira econômica e flexível que permitisse que Vinsen e sua equipe obtivessem resultados rapidamente.

A natureza escalável e sob demanda da Amazon Web Services (AWS) a tornaram uma escolha lógica para os testes necessários para o projeto do SKA. A AWS pode disponibilizar os recursos que o ICRAR precisa para analisar grandes quantidades de dados de imagens. Vinsen ganhou um subsídio de educação da AWS para iniciar a theSkyNet em 2012 e o projeto aumentou para 40 teraFLOPs no ano passado. Um teraFLOP é o equivalente a um trilhão de operações de ponto de flutuação por segundo.

"Vemos soluções baseadas na nuvem e instalações de supercomputador como complementares e esperamos que ambas desempenhem um papel no processamento, no armazenamento e na disseminação dos enormes volumes de dados criados pela próxima geração de observatórios", diz o Professor associado Vinsen. "Desejamos ser flexíveis e podemos usar facilmente a AWS para os nossos testes em vez de usarmos um supercomputador dedicado."

O ICRAR usa o Amazon Route 53 para rotear todos os usuários externos para seus sites da theSkyNet. Depois disso, os cientistas usam uma instância média do Amazon Elastic Compute Cloud (Amazon EC2) e Imagens de máquina da Amazon (Amazon AMIs) sob demanda para processar os ciclos de CPU colaborativos da theSkyNet e outra instância pequena do Amazon EC2 como um servidor de arquivos de rede.

Para armazenar dados de imagens, o ICRAR instalou dois volumes de 60 GB do Amazon Elastic Block Store (Amazon EBS) e arquiva os dados usando o Amazon Glacier. A equipe do ICRAR também usa o Amazon Simple Storage Service (Amazon S3) como um armazenamento principal para mostrar aos voluntários as galáxias que a capacidade de processamento de seus PCs está ajudando a analisar. A Figura 1 demonstra a theSkyNet na AWS. 

ICRAR-arch-diag

Figura 1: Arquitetura da theSkyNet na AWS.

O ICRAR configurou o projeto theSkyNet na AWS em apenas quatro dias. A equipe agora pode rápida e eficientemente expandir a infraestrutura de nuvem conforme o público oferecer mais ciclos de CPU para apoiar a iniciativa.

"A escalabilidade da AWS tem sido muito útil", afirma Vinsen, professor associado. "Posso acrescentar capacidade conforme o necessário com muita facilidade. Usando a AWS, conseguimos processar 150 GB de imagens do céu e armazenar mais de 400 GB de dados de imagens a cada mês."

Ao usar o Amazon S3 como um armazenamento de chave-valor, o ICRAR é capaz de indexar e gerenciar facilmente informações de centenas de milhares de CPUs públicas em todo o mundo. O Amazon ELB ajuda o ICRAR a gerenciar o fluxo de dados para e da comunidade da theSkyNet.

O ICRAR usa o Amazon EBS para armazenar mais de 400 GB de dados de imagens mensalmente conforme eles são processados pela comunidade. O Amazon EC2 disponibiliza capacidade computacional para o ICRAR analisar dados de 400 e 500 galáxias simultaneamente.

O projeto provou ser incrivelmente popular e, logo após migrar para a AWS, comunidades on-line na Rússia, nos EUA e na Austrália sobrecarregaram o servidor da theSkyNet do ICRAR. No entanto, o Professor associado Vinsen levou apenas duas horas para adicionar capacidade extra. "Outros projetos de computação comunitária já levaram dias para se recuperar de sobrecargas, pois precisaram buscar mais recursos de infraestrutura para ativar novos servidores", comenta. "Com a AWS, basta provisionar uma instância maior."

O ICRAR planeja usar a AWS para atender aos requisitos de computação contínuos de futuros testes da theSkyNet.

Para saber mais sobre como a AWS pode atender a necessidades relacionadas a dados, acesse nossa página de detalhes sobre big data: http://aws.amazon.com/big-data/.