借助 Amazon Omics,您可以更轻松地存储、查询和分析基因组、转录组和其他组学数据,然后从这些数据中生成见解。它简化并加速了存储和分析用于研究和临床应用的多组学信息的过程,因此您可以专注于从数据中获得更深入的见解。

借助 Amazon Omics 存储,您可以高效且经济地存储数 PB 的组学数据,从而实现人口规模的科学发现。Amazon Omics 工作流程自动化预置和扩展计算基础设施,因此您可以在生产规模上运行生物信息学分析管道,并减少管理基础设施的时间,将更多时间用于研究。Amazon Omics 分析简化了为多模态分析准备组学数据的过程,使您能够将多组学和健康记录数据整合在一起,并生成更具针对性和个性化的治疗。这些功能也符合 HIPAA 要求。

一般性问题

专门构建的存储

Amazon Omics 存储与生物信息学文件格式(如 FASTQ、BAM 和 CRAM)兼容,使您能够以低成本高效存储、发现和共享这些数据。这些文件格式作为读取集对象存储在序列存储中。您还可以以 FASTA 格式存储参考基因组。数据作为具有唯一标识符的不可变对象导入,以支持需要严格数据来源的工作负载。可以通过 AWS Identity and Access Management (IAM) 使用标签和基于属性的访问控制来控制对单个数据对象(包括引用和读取集对象)的访问。为了降低长期存储成本,30 天内未访问的数据对象会自动移动到归档存储类。可以随时通过 API 调用重新激活归档的对象。

生物信息学工作流程

Amazon Omics 可帮助您大规模运行生物信息学工作流程。指定您的工作流程定义、要使用的工具以及要分析的数据,Amazon Omics 将预置底层基础设施并实施工作流程。支持符合 WDL 1.1 和 Nextflow 22.04.0 DSL2 规范的工作流程定义。工作流程使用存储在 Amazon Elastic Container Registry (ECR) 的私有注册表中的符合 OCI 标准的容器化工具。您可以分析 S3 存储桶或 Amazon Omics 序列存储中的数据。您可以控制谁有权访问特定工作流程、控制使用的资源总量,以及通过工作流程运行组管理实现的优先级。

大规模分析

借助 Amazon Omics,您可以快速提取基因组学数据格式(如 (g)VCF、GFF3 和 TSV/CSV),并将其转换为 Apache Parquet。您可以通过 Amazon Athena 等分析服务访问基因组学数据。您可以转换变体数据(来自单个样本的数据)和注释数据(有关基因组中位置的已知信息)。您可以使用 AWS Lake Formation 控制对分析存储的访问,从而更轻松地跨不同数据来源执行查询,同时实施精细的访问控制。例如,您可以将个人的基因组数据与来自 Amazon HealthLake 的病史(可能包括先前的治疗、药物或实验室报告)安全地结合起来,以促进精准医疗。

数据协作和来源

Amazon Omics 使研究人员能够更轻松地标记协作者、设置其权限并与他们安全地共享数据。这简化了使组学数据可查找、可访问、可互操作和可重用 (FAIR) 的方式。借助特定于域的元数据,您可以将 Amazon Omics 数据存储与其他组学和医疗保健数据链接起来,以促进多组学和多模式分析。

安全性、隐私性和合规性

符合 HIPAA 要求

Amazon Omics 符合 HIPAA 要求。您可以应用基于属性的控制来定义精细的数据访问和管控。内置全面的日志记录和来源捕获,因此您可以了解访问了哪些数据、谁访问了这些数据以及何时访问了这些数据。