我们的 lncRNA 分析需要大量计算处理和集成。借助 AWS,我们可以快速计算 1000 个或更多个节点,这将我们的基因组测序分析所需的时间从数周缩短为数天。 
Mitch Guttman 博士 生物学和生物工程部门副教授

加州理工学院 (Caltech) lncRNA 生物学格特曼实验室是一间研究实验室,由杰出的科学家 Mitch Guttman 博士负责。他正在带领研究人员团队研究一种称为 lncRNA (大型非编码 RNA 的简称) 的新型基因。借助基因组方法和生物化学、分子生物学、细胞生物学以及计算生物学,Guttman 和他的团队正在探索 lncRNA 是如何编组细胞中的蛋白质和 DNA 分子来控制精确的基因表达程序的。

2013 年,当 Guttman 博士来到 Caltech 时,他希望确保他的研究团队能拥有一个具有弹性且灵活的高性能计算 (HPC) 群集。“当我们考虑采用适用于我们实验室的群集时,我们深知它必须能支持我们不断变化的计算需求。”Guttman 说道,“我们有时需要 1000 个计算节点,而有时仅需要 10 个,具体取决于数据可用性和我们的研究项目所处的阶段。同时整合多个项目可能需要更多的节点。”

但是,该实验室并不想构建其自己的本地群集来支持其需求。“在加州,我们是国内房产和电力成本最高的组织,因此我们非常关注创建自己的群集所需的成本。”加州理工学院信息管理系统和服务主管 John Lilley 说道,“我们也不想在管理和维护群集上花费时间。”

此外,Guttman 和他的团队希望确保他们能够轻松管理群集访问凭证。Lilley 说:“我们希望能从一个中央位置激活和取消激活群集用户账户,而无需担心任何机器上的凭证会缺失”。

Caltech 已将其全部的 Web 业务迁移到了 Amazon Web Services (AWS) 云平台,并且格特曼实验室也选择使用 AWS 来支持其 HPC 群集。Lilley 说:“我们一直在寻找一种方式以便我们将云用于计算资源,而 AWS 是最佳选择,因为它可以提供我们所需的弹性和灵活性,还能够节约成本”。

格特曼实验室使用一个 HPC 群集,该群集包含连接到 Amazon Virtual Private Cloud (Amazon VPC) 的计算机,通过这一群集,该实验室能够预置 AWS 云的逻辑隔离部分,以在定义的虚拟网络中启动 AWS 资源。干湿实验室中的研究人员可以获取基因组测序数据并将其保存到 Amazon VPC 内的 GlusterFS 文件系统中,然后研究人员可以通过基于 AWS 的共享 Linux 工作站来访问这些数据,该工作站已通过 Simple AD (一种 Active Directory,即 AWS Directory Service 中的兼容目录) 进行身份验证。

对于非 Linux 用户,该实验室还使用了 Amazon WorkSpaces 托管桌面计算服务。“我们希望 Windows 用户能够从他们的干实验室 PC 连接到 Amazon WorkSpaces,并与 Linux 用户拥有相同级别的数据访问权限。”Lilley 说道,“并且我们可以使用 Simple AD 轻松管理这些访问。”该实验室将 Amazon Elastic Compute Cloud (Amazon EC2) 实例用于其 GlusterFS 节点,并且在 AWS 上使用 CfnCluster 框架来部署并维护其 HPC 群集。借助该群集,研究团队开发了计算工具和统计方法来分析实验数据。

借助 AWS,格特曼实验室现在可以灵活地管理其不断变化的计算需求。Lilley 说:“我们无需构建自己的物理群集来管理周期性计算使用量,因为 AWS 会根据我们的情况自动扩展。”Guttman 补充道:“现在,我们无需提前花时间来确定项目的优先级,并且我们有足够的计算能力,无需每隔几年更新一次硬件。我们还能够积极地开发并测试新的研究方法。AWS 无疑是我们实验室的一大助力。”

此外,该实验室还拥有必要的敏捷性,可以在需要时轻松添加更多的计算资源。“最近,我们需要将 GlusterFS 系统从 5TB 扩展到 24TB,但我们无需购买新硬件就能实现此扩展。”Lilley 说道,“我们只需添加更多的 Amazon EC2 节点并增加云存储即可,这只需要一小时就能完成。之前,因为需要商议硬件购买价格,然后再采购、安装和测试,因此需要花费数周时间才能完成。”

此外,借助 AWS 云,该实验室的研究人员可以更快地分析 lncRNA 数据。“我们的 lncRNA 分析需要大量计算处理和集成。”Guttman 说道,“借助 AWS,我们可以快速计算 1000 个或更多个节点,这将我们的基因组测序分析所需的时间从数周缩短为数天。如果使用之前的有限容量,我们无法实现这一点。”

此外,通过使用 Amazon EC2 竞价实例对剩余的 Amazon EC2 计算容量进行竞价,该实验室还降低了成本。Guttman 说:“我们不仅通过使用 AWS 获得了具有弹性的计算容量,而且还可以享受 EC2 竞价实例的经济高效性,此外,该群集非常实惠,比我们自行构建群集所需的成本要低得多。”

借助 Amazon WorkSpaces 和 Simple AD,格特曼实验室可以轻松管理对其 HPC 群集的访问。Lilley 说:“刚开始使用群集时,从 Linux 桌面将凭证同步到管理主机和 CfnCluster 绝非易事。”“借助集成到群集中的 Simple AD,我们节约了大量时间,因为我们可以从一个中央位置激活和取消激活用户账户。借助 Simple AD,我们可以使整个环境内的资源保持一致。”

最后,Caltech 计划在 AWS 上运行更多的实验室和部门。“我们会使用自己在 AWS 上创建的内容并将其展示给学院的其他基因组研究人员。”Lilley 说道,“我们会将这种解决方案视为 Caltech 实现 HPC 的模板。”

要了解有关云中基因组学的更多信息,请访问我们的 AWS 基因组学详细信息页面

要详细了解 AWS 如何帮助您管理 HPC 群集,请访问我们的 AWS 高性能计算详细信息页面