加州理工学院格特曼实验室案例研究
2016 年
加州理工学院 (Caltech) 的 lncRNA 生物学格特曼实验室是一间研究实验室,由杰出的科学家Mitch Guttman 博士负责。他正在带领研究人员团队研究一种称为 lncRNA(大型非编码 RNA 的简称)的新型基因。借助基因组方法和生物化学、分子生物学、细胞生物学以及计算生物学,Guttman 和他的团队正在探索 lncRNA 是如何编组细胞中的蛋白质和 DNA 分子来控制精确的基因表达程序的。
我们的 lncRNA 分析需要大量计算处理和集成。借助 AWS,我们可以快速计算 1000 个或更多个节点,这将我们的基因组测序分析所需的时间从数周缩短为数天。”
Mitch Guttman 博士
加州理工学院格特曼实验室生物学和生物工程部门副教授
挑战
2013 年,当 Guttman 博士来到 Caltech 时,他希望确保他的研究团队能拥有一个具有弹性且灵活的高性能计算 (HPC) 集群。“当我们考虑采用适用于我们实验室的集群时,我们深知它必须能支持我们不断变化的计算需求。”Guttman 说道,“我们有时需要 1000 个计算节点,而有时仅需要 10 个,具体取决于数据可用性和我们的研究项目所处的阶段。同时整合多个项目可能需要更多的节点。”
但是,该实验室并不想构建其自己的本地集群来支持其需求。“在加州,我们是国内房产和电力成本最高的组织,因此我们非常关注创建自己的集群所需的成本。”加州理工学院信息管理系统和服务主管 John Lilley 说道,“我们也不想在管理和维护集群上花费时间。”
此外,Guttman 和他的团队希望确保他们能够轻松管理集群访问凭证。Lilley 说:“我们希望能从一个中央位置激活和取消激活集群用户账户,而无需担心任何机器上的凭证会缺失。”
为什么选择 Amazon Web Services
Caltech 已将其全部的 Web 业务迁移到了 Amazon Web Services (AWS) 云平台,并且格特曼实验室也选择使用 AWS 来支持其 HPC 集群。“我们一直在寻找一种方式以便我们将云用于计算资源,而 AWS 是最佳选择,因为它可以提供我们所需的弹性和灵活性,还能够节约成本。”Lilley 说。
格特曼实验室使用一个 HPC 集群,该集群包含连接到 Amazon Virtual Private Cloud (Amazon VPC) 的计算机,通过该集群该实验室能够预置 AWS 云的逻辑隔离部分,以在定义的虚拟网络中启动 AWS 资源。干湿实验室中的研究人员可以获取基因组测序数据并将其保存到 Amazon VPC 内的 GlusterFS 文件系统中,然后研究人员可以通过基于 AWS 的共享 Linux 工作站来访问这些数据,该工作站已通过 Simple AD(一种 Active Directory,即 AWS Directory Service 中的兼容目录)进行身份验证。
对于非 Linux 用户,该实验室还使用了 Amazon WorkSpaces 托管桌面计算服务。“我们希望 Windows 用户能够从他们的干实验室 PC 连接到 Amazon WorkSpaces,并与 Linux 用户拥有相同级别的数据访问权限。”Lilley 说道,“并且我们可以使用 Simple AD 轻松管理这些访问。” 该实验室将 Amazon Elastic Compute Cloud (Amazon EC2) 实例用于其 GlusterFS 节点,并且在 AWS 上使用 CfnCluster 框架来部署并维护其 HPC 集群。借助该集群,研究团队开发了计算工具和统计方法来分析实验数据。
优势
借助 AWS,格特曼实验室现在可以灵活地管理其不断变化的计算需求。Lilley 说:“我们无需构建自己的物理集群来管理周期性计算使用量,因为 AWS 会根据我们的情况自动扩展。”Guttman 补充道:“现在,我们无需提前花时间来确定项目的优先级,并且我们有足够的计算能力,无需每隔几年更新一次硬件。我们还能够积极地开发并测试新的研究方法。AWS 无疑是我们实验室的一大助力。”
此外,该实验室还拥有必要的敏捷性,可以在需要时轻松添加更多的计算资源。“最近,我们需要将 GlusterFS 系统从 5TB 扩展到 24TB,但我们无需购买新硬件就能实现此扩展。”Lilley 说道,“我们只需添加更多的 Amazon EC2 节点并增加云存储即可,这只需要一小时就能完成。之前,因为需要商议硬件购买价格,然后再采购、安装和测试,因此需要花费数周时间才能完成。”
此外,借助 AWS 云,该实验室的研究人员可以更快地分析 lncRNA 数据。“我们的 lncRNA 分析需要大量计算处理和集成。”Guttman 说道,“借助 AWS,我们可以快速计算 1000 个或更多个节点,这将我们的基因组测序分析所需的时间从数周缩短为数天。如果使用之前的有限容量,我们无法实现这一点。”
通过使用提供Amazon EC2 空闲计算容量的 Amazon EC2 Spot 实例,实验室还可以节省成本,与按需实例的价格相比,这类实例最多可以节省 90% 的成本。Guttman 说:“我们不仅通过使用 AWS 获得了具有弹性的计算容量,而且还可以享受 EC2 Spot 实例的经济高效性,此外,该集群非常实惠,比我们自行构建集群所需的成本要低得多。”
借助 Amazon WorkSpaces 和 Simple AD,格特曼实验室可以轻松管理对其 HPC 集群的访问。“刚开始使用集群时,从 Linux 桌面将凭证同步到管理主机和 CfnCluster 绝非易事。”Lilley 说,“借助集成到集群中的 Simple AD,我们节约了大量时间,因为我们可以从一个中央位置激活和取消激活用户账户。借助 Simple AD,我们可以使整个环境内的资源保持一致。”
最后,Caltech 计划在 AWS 上运行更多的实验室和部门。“我们会使用自己在 AWS 上创建的内容并将其展示给学院的其他基因组研究人员。”Lilley 说道,“我们会将这种解决方案视为 Caltech 实现 HPC 的模板。”
关于加州理工学院格特曼实验室
加州理工学院 (Caltech) 的 lncRNA 生物学格特曼实验室是一间研究实验室,由杰出的科学家Mitch Guttman 博士负责。
使用的 AWS 服务
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可以在云中提供安全并且可调整大小的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。
Amazon VPC
借助 Amazon Virtual Private Cloud (Amazon VPC),您可以在 AWS 云中预置一个逻辑隔离的部分,从而在自己定义的虚拟网络中启动 AWS 资源。
了解更多 »
Amazon WorkSpaces
Amazon WorkSpaces 是一种安全的托管式桌面即服务 (DaaS) 解决方案。
了解更多 »
开始使用
各行各业中所有规模的公司都在使用 AWS 对其日常业务进行转型。联系我们的专家,立即踏上您的 AWS 云之旅。