参考部署

Hail on AWS

Amazon EMR 上的简化基因组分析

此 Quick Start 由 Goldfinch Bio, Inc. 与 Privo IT 合作构建,有助于简化、管理 Amazon Web Services (AWS) 账户中的 Hail 集群并与之交互。Hail 是为 Apache Spark 构建的开源库,提供可扩展数据探索和分析(特别强调基因组学)。

借助 Hail,研究人员可以更快、更高效地进行基因组分析。Hail 支持更轻松地使用 Spark 编程技术处理基因数据(基因组数据帧)。通过创建通用数据结构 (Hail MatrixTable),它还有助于简化多种输入格式的处理流程。 

此部署结合使用 Amazon EMR 和 Apache Spark 跨实例扩展大型数据集,例如生产规模的全基因组关联研究 (GWAS) 和单节点特殊流程。

Privo 徽标

此 Quick Start 由 Goldfinch Bio, Inc.、Privo IT 与 AWS 合作开发。
Privo 是 AWS 合作伙伴

  •  构建内容
  • 此 Quick Start 可设置以下内容:

    • Hail 0.2 AWS Service Catalog 产品组合,允许您创建和管理您自己的 Hail 集群。
    • 四个 AWS CodeBuild 管道,支持构建 Hail 0.2.x 版本、Variant Effect Predictor (VEP) 版本和 Loss-Of-Function Transcript Effect Estimator (LOFTEE) 插件的各种组合。
    • Amazon SageMaker 实例,允许您启动和关闭与 Hail 集群集成的 JupyterLab 笔记本环境(通过 Sparkmagic 和 Livy)。
    • Amazon EMR 集群,允许您根据需要启动和关闭 Hail 0.2 集群。
    • Amazon Simple Storage Service (Amazon S3) Sagemaker 存储桶,用于备份启动的笔记本环境。
    • 用于暂存 Hail 构件的 Amazon S3 存储桶。
    • 一个根据 AWS 最佳实践配置有私有子网的可选 Virtual Private Cloud (VPC),用于在 AWS 上为您提供您自己的虚拟网络。
  •  如何部署
  • 要部署 Hail,请遵循部署指南中的说明操作。部署过程大约需要 10 分钟,包括以下步骤:

    1. 如果您还没有 AWS 账户,请在 https://aws.amazon.com 上注册,并登录您的账户。
    2. 启动 Quick Start,从以下选项中选择。两个选项都基于一个模板。
    3. 测试部署。

    Amazon 可能会跟与 AWS 合作打造此合作伙伴解决方案的 AWS 合作伙伴共享用户部署信息。  

  •  费用和许可证
  • 您需要支付在运行此 Quick Start 的参考部署期间使用 AWS 服务所产生的费用。使用本快速入门无需额外付费。 

    此 Quick Start 的 AWS CloudFormation 模板包括可自定义的配置参数。其中一些设置(如实例类型)会影响部署成本。有关成本估算信息,请参阅您使用的每种 AWS 服务的定价页面。价格可能随时变动。

    提示:部署 Quick Start 后,我们建议您启用 AWS 成本和使用情况报告。此报告会将账单指标发送至您账户中的 S3 存储桶。它根据每个月的使用情况提供成本估算,并在月末最终敲定数据。有关此报告的更多信息,请参阅 AWS 文档

    Hail 0.2 基于 MIT 许可证发布。