纽约大学 (NYU) 健康信息学和生物信息学中心高性能计算机构成立于 2009 年,目的是向纽约大学朗格尼医学中心的研究人员交付先进的计算能力。该机构允许医学信息学和生物信息学研究人员利用计算能力、数据存储和超级计算资源,以及与世界各地的协作人员共享的数据,来加快探索和创新。

高性能计算机构的技术总监 Stratos Efstathiadis 博士介绍了该机构的主要事务:“我们机构可以从新一代测序仪、显微镜、幻灯片式扫描仪、质谱仪及其他研究设备中捕获大量数据。我们必须存储、管理、支持和实现对这些数据的分析,并为科学家提供资源,供其运行模拟和生成模型”。

这些分析和模拟任务通常需要运行数天甚至数周的时间。因此,虽然我们机构是同类中最大的医学中心之一,但有时也需要额外的计算资源,以便研究人员更快速地分析数据。

比分析数据所用时间更棘手的问题是传输数据所需的时间。Efstathiadis 说道:“数据传输是我们遇到的一大瓶颈,我们的数据集非常大,因此迁移数据所需的时间往往比生成数据所用的时间要长。由于我们的协作人员遍布全球,如果我们无法迁移数据,他们就无法使用。”

结合使用 AWS 云与 Globus Online (一项由 AWS 托管和提供支持的免费文件传输服务) 可以提供一种可靠方法来将大型数据集传输至 Amazon EC2。该解决方案可以高达 50MB/s 的速度并行迁移文件。Efstathiadis 指出:“这一速度接近于我们的现场传输速度,两者简直不相上下!”

由于 Amazon EC2 拥有实例选择功能,加之该中心的研究人员已经熟悉该服务,Efstathiadis 博士决定使用 AWS。Efstathiadis 补充道:“此外,由于 Globus Online 使我们可以轻松将数据传输至 Amazon EC2,我们可以通过这种颇具吸引力的方式将大型数据集传输到环境中,以便研究人员访问和使用。”Efstathiadis 认为,SCP 等其他工具“需要的传输时间太长,或者会被机构防火墙阻止,这限制了我们可以使用的工具类型。而使用 Globus Online 则意味着,我们可以提高吞吐量,而不影响易用性。”

该机构还将 Amazon S3 用于数据存储。Efstathiadis 博士说道:“我们可以使用 Globus Online 轻松将本地存储中的数据迁移到 Amazon S3 存储,只需部署一个服务器映像并安装 Globus Online 终端节点,然后迁移本地存储中的数据即可。”

通过使用云,HPC 机构扩展了其可为纽约大学的研究人员提供的一系列服务,现在,这些研究人员可以在需要时访问他们所需的资源。云还有助于研究人员展开协作,通过使用 Amazon S3,他们可以轻松将自己的研究成果和数据集分享给世界各地的研究人员。

数据共享是一个重要组成部分。Efstathiadis 说道:“我们的研究人员有许多在其他地点的协作者;通过将数据上传到 Amazon S3,其他位置的研究人员可以访问这些数据以供自己使用。因此,借助该解决方案,纽约大学的研究人员不仅可以加快自己的分析流程,还可以帮助其他研究人员做到这一点。”

纽约大学健康信息学和生物信息学中心的 HPC 机构在不断地寻找更轻松且更经济的方式来开展研究。借助云,该机构将更接近他们的目标,即提供超出任一家当地机构所能单独提供的计算资源限制的可扩展计算资源。

要了解有关云中基因组学的更多信息,请访问我们的 AWS 基因组学详细信息页面

要了解 AWS 如何帮助您满足高性能计算需求,请访问我们的 HPC 详细信息页面