国际射电天文学研究中心 (ICRAR) 是科廷大学和西澳大利亚大学于 2009 年合资成立的组织。ICRAR 的总部位于西澳大利亚珀斯,目前拥有 110 名员工,是国际上致力于开发世界上规模最大的射电望远镜 (又称为平方公里远射望远镜阵列 [SKA]) 的组织之一。在其 50 多年的生命周期中,SKA 将帮助我们进一步了解宇宙。

一旦开始运行,预计 SKA 每天将从太空收集并处理大量数据,这些数据相当于目前全球一年产生的数据。SKA 将使用这些数据来制作太空图,以供科学家研究宇宙。单个 SKA 图像的大小为 600TB,每个太空图需要数千个图像。

“我们需要解决不可估量的计算难题。”ICRAR 研究副教授 Kevin Vinsen 说道,“科学案例表明,当 SKA 在接下来的十年中全面运行时,它每天可以收集 500TB 到 1PB 的成像数据。全面运行所需的大量原始计算能力令人难以置信。”

为了积累计算资源以进行一系列初步试验,ICRAR 制定了一个名为 theSkyNet 的社区计算计划。该计划允许 ICRAR 使用由公众主动提供的备用 CPU 周期来模拟超级计算机。然后,Vinsen 和他的同事使用 theSkyNet 生成的计算能力分析夏威夷的 Pan-STARRS1 望远镜 (theSkyNet 计划的一部分) 观测到的星系图像。

在将物理服务器容量与传入数据的负载进行匹配时,众包计算项目通常会遇到问题。ICRAR 需要以经济高效且灵活的方式使用 theSkyNet 开展试验,以便 Vinsen 和他的团队能够快速获得结果。

Amazon Web Services (AWS) 的可扩展性和按需特性使其成为开展 SKA 设计所需实验的合理选择。AWS 能够提供 ICRAR 分析大量成像数据所需的资源。Vinsen 在 2012 年获得了启动 theSkyNet 的 AWS 教研资助,该计划在过去的一年里已增长至 40teraFLOP。1teraFLOP 相当于每秒进行一万亿次浮点运算。

“我们认为基于云的解决方案和超级计算设备是互补的,并希望两者能够在下一代天文台创建的大量数据的处理、存储和分发方面发挥重要作用。”副教授 Vinsen 说道,我们希望具有灵活性,并能够轻松使用 AWS 来开展试验,从而取代专用超级计算机。”

ICRAR 使用 Amazon Route 53 将所有外部用户路由到其 theSkyNet 网站。然后,科学家使用一个中型 Amazon Elastic Compute Cloud (Amazon EC2) 实例和按需 Amazon 系统映像 (Amazon AMI) 来处理 theSkyNet 的众包 CPU 周期,并将另一个小型 Amazon EC2 实例用作网络文件服务器。

为了存储成像数据,ICRAR 使用 Amazon Glacier 挂在了两个 60GB 的 Amazon Elastic Block Store (Amazon EBS) 卷并存档数据。ICRAR 团队还将 Amazon Simple Storage Service (Amazon S3) 用作主要存储,以向志愿者展示借助其 PC 的处理能力分析的星系。图 1 展示了 AWS 上的 theSkyNet。 

ICRAR-arch-diag

图 1:AWS 上的 theSkyNet 架构。

ICRAR 在短短四天内就在 AWS 上设置了 theSkyNet 计划。随着公众主动提供更多的 CPU 周期来支持该计划,该团队现在能够快速、高效扩展云基础设施。

“AWS 的可扩展性非常有用,”副教授 Vinsen 说。“需要时,我可以毫不费力地添加更多容量。使用 AWS,我们每个月可以处理多达 150GB 的天空图像,并存储超过 400GB 的成像数据。

通过将 Amazon S3 用作键值存储,ICRAR 能够无缝索引和管理世界各地成千上万个公共 CPU 的输入。ICRAR 可以借助 Amazon ELB 来管理进出 theSkyNet 社区的数据流。

在社区对成像数据进行处理后,ICRAR 每月可以使用 Amazon EBS 存储 400GB 以上的成像数据。Amazon EC2 可以为 ICRAR 提供同时分析 400 到 500 个星系的数据所需的计算容量。

事实证明,该项目非常受欢迎,迁移到 AWS 后不久,俄罗斯、美国和澳大利亚的在线社区使 ICRAR 的 theSkyNet 服务器出现过载。但副教授 Vinsen 只用了两个小时就添加了额外的容量。“其他社区计算项目需要数天时间才能从过载情况中恢复,因为他们需要寻找更多的基础设施资源才能获得新服务器。”他说道,“借助 AWS,我只需预置更大的实例即可。”

ICRAR 计划使用 AWS 来满足 theSkyNet 内后续试验的持续计算需求。

要详细了解 AWS 如何帮助您满足数据需求,请访问我们的大数据详细信息页面:http://aws.amazon.com/big-data/