常见问题

问:使用 AWS Glue 和 Amazon Athena 的基因组学高级分析和数据湖有什么作用?

答:该解决方案可在 AWS 中创建可扩展的环境,以准备用于大规模分析的基因组学数据并针对基因组学数据湖执行交互式查询。该解决方案演示如何构建、打包和部署用于基因组学数据转换的库;为基因组学数据准备和分类提供数据摄取管道;以及针对基因组学数据湖运行交互式查询。

问:我可以修改解决方案以使用自己的基因组数据、查询和笔记本吗?

答:可以。您可以修改解决方案以适应自己的特定需求,例如,通过添加新的 AWS Glue 作业和抓取程序来提取、准备和分类数据;以及通过新的 Jupyter 笔记本和 Amazon Athena 查询来执行数据分析。CI/CD 管道将跟踪每个更高,从而帮助进行变更控制管理、回滚和审计。

问:哪些生物信息学工具用于数据准备?

答:该解决方案演示了如何使用第三方生物信息学工具来准备要提取到基因组数据湖中的数据。提供的示例使用 Broad Institute 的 Hail 将变体调用文件 (VCF) 格式的基因组变异数据读取到 Spark 数据框中进行处理。该解决方案还演示了如何使用 AWS CodeBuild 从源代码构建第三方工具(例如 Hail)并将其部署到 Amazon S3 存储桶中以用于 AWS Glue 作业。

问:该解决方案中使用了哪些生物信息学数据集?

答:该解决方案将 ClinVar 数据集、1000 个基因组数据集中的一部分和单个 1000 个基因组 VCF 部署到解决方案数据存储桶中。这些数据集用于演示如何使用 AWS Glue 和 Amazon Athena 提取、准备和分析基因组数据。最后,提供 Jupyter 笔记本,演示如何从 Jupyter 笔记本中创建药物反应报告。

问:能否在任意 AWS 区域内部署此解决方案?

答:否,此解决方案使用 AWS CodePipeline 服务,该服务目前仅在特定 AWS 区域提供。因此,您必须在提供本服务的 AWS 区域内推出此解决方案。有关各区域最新可用性的信息,请参阅按区域提供的 AWS 服务

培训和认证

AWS Training and Certification 通过实用的云技能建立您的能力、信心和可信度,帮助您创新和构建自己的未来。  了解更多 »

AWS CodeCommit 简介

本课程将向您介绍 AWS CodeCommit,它是一项完全托管的源代码控制服务,这项服务使您能够轻松托管安全且高度可扩展的私有 Git 存储库。在本课程中,您将了解该服务功能和益处的更多相关信息,并了解如何最好地使用 CodeCommit 来满足您自己的开发需求。我们还演示了如何创建新存储库。

立即报名 »

AWS CodeBuild 简介

在此介绍课程中,我们讨论了什么是 AWS CodeBuild 以及它的工作原理,并且回顾了一些常见使用案例和最佳实践。

立即报名 »

AWS Certified Solutions Architect – Associate

该考试用于检验您在运用 AWS 技术构建和部署安全可靠的应用程序方面能否有效展现出足够知识。

报考 »

合作伙伴资源

AWS 合作伙伴网络 (APN) 致力于帮助合作伙伴构建基于 AWS 的成功业务,以推动卓越解决方案和客户体验。APN 合作伙伴共同致力于帮助客户取得成功,帮助您充分利用 AWS 能够提供的所有业务优势。APN 合作伙伴利用他们深厚的 AWS 专业知识,能够在云采用之旅的各个阶段为贵公司提供支持,并帮助您解决一些最复杂的问题。

访问以下页面,以详细了解我们用于构建此 AWS 解决方案的服务。

需要更多资源才能开始使用 AWS?

访问“入门资源中心”查看相关教程、项目和视频,以便开始使用 AWS。

了解更多 »