AWS HealthOmics 常见问题

一般性问题

AWS HealthOmics 是一项专用服务,可帮助医疗保健和生命科学组织及其软件合作伙伴存储、查询和分析基因组、转录组和其他组学数据,然后从这些数据中产生见解,从而改善健康。它支持大规模分析和协作研究。

AWS HealthOmics 为准备和分析组学数据提供了可扩展的工作流程和集成工具,并自动提供和扩展底层基础设施,以便您可以将更多时间用于研究和创新。 AWS HealthOmics 支持大规模分析和协作研究。

AWS HealthOmics 可以使用 AWS HealthOmics 私有和 Ready2Run 工作流程直接从 Amazon Simple Storage Service(S3)或 AWS HealthOmics 存储处理数据。您可以将原始基因组序列文件、变体调用格式文件和注释数据集等数据从 Amazon S3 导入与生物信息学兼容的 AWS HealthOmics 存储和分析商店。您可以使用 AWS Lake Formation 控制对 AWS HealthOmics 变体和注释存储的访问,并使用 Amazon Athena 使数据更易于查询,并与其他形式的数据(例如来自 Amazon HealthLake 的医疗健康记录)相结合。您还可以使用 Amazon Athena 使数据更容易查询并与其他形式的数据相结合,例如来自 Amazon HealthLake 的医疗健康记录。此外,您还可以在 Amazon QuickSight 中使用转换后的数据进行高级分析。您还可以使用 Amazon SageMaker 在您的多组学和多模态数据上构建、训练和部署新型机器学习算法。最后,您还可以使用 Amazon EventBridge 将事件作为事件驱动架构的一部分发布。

我们有两种数据存储类型,一种用于存储原始、生物数据,另一种用于存储变体和注释数据。 AWS HealthOmics 存储可以导入 FASTA 格式的参考基因组和 Gzip 压缩后的 FASTQ、BAM 和 CRAM 格式的原始序列文件。 AWS HealthOmics 分析存储可以为变体数据导入 (g)VCF 格式的文件,为基因组注释导入 VCF、GFF 和 TSV/CSV 文件。 AWS HealthOmics 工作流程可以从 AWS HealthOmics 存储或 Amazon S3 中读取您定义的工作流程定义和工具支持的任何数据。

AWS HealthOmics 工作流程支持符合 WDL 1.1 规范或 Nextflow 22.04.0 DSL2 的工作流程定义。目前,工作流程引用的工具必须被封装在符合 OCI 标准的容器中,并存储在 Amazon Elastic Container Registry(ECR)的私有注册表中。工作流程定义必须定义特定的最终输出 — 当工作流程运行完成后,中间结果将被丢弃。目前不支持工作流程运行或任务的缓存。

私有工作流程使您可以使用两种最常用的工作流程语言(WDL 和 Nextflow)编写自己的生物信息学脚本。您可以通过一次执行来运行这些私有工作流程,这称为运行。对于私有工作流程,您只需按请求量付费,并针对组学实例类型和运行存储单独计费。工作流程中的所有任务都映射到最适合已定义资源的实例。

Ready2Run 工作流程是预先构建的工作流程,由行业领先的第三方软件公司(如 Sentieon, Inc.、NVIDIA 和 Element Biosciences)以及常见的开源管道(如 Broad Institute 的 GATK 最佳实践工作流程和用于蛋白质结构预测的 AlphaFold)设计。Ready2Run 工作流程让您使用最常用的工作流程(比如 Germline 和 Broad Institute 的 GATK-8P)即可轻松处理数据。Ready2Run 工作流程按运行次数付费,价格预先确定。这意味着您为每个工作流程支付的价格相同。

隐私与安全性

AWS HealthOmics 符合 HIPAA 资格。您可以使用基于属性的访问控制来定义谁可以访问 AWS HealthOmics 资源。所有持久性存储支持客户管理的密钥。行权限和列权限也可以在 AWS HealthOmics 分析商店中获得。 AWS HealthOmics API 与 AWS CloudTrail 和 Amazon CloudWatch Logs 集成,允许您生成详细的数据出处并访问审计跟踪记录。

AWS HealthOmics 是一项符合 HIPAA 要求的服务。如果您在 AWS 上存储受保护的健康信息(PHI),您需要有一个商业伙伴附录。您可以使用 AWS Artifact 在线快速输入一个商业伙伴附录。