亚马逊AWS官方博客
Amazon Omics 简介 – 专为大规模存储、查询和分析基因组和生物学数据而构建的服务
您可能在高中生物课上了解到,人类基因组由超过三十亿个字母的代码组成,这些代码使用脱氧核糖核酸(DNA)中成对的腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。人类基因组是每个人类细胞的生物学蓝图。而这仅仅是使我们成为人类的基础。
医疗保健和生命科学组织收集各种类型的生物数据,以改善患者护理并推动科学研究。这些组织绘制了个人的疾病遗传易感性,根据蛋白质结构和功能确定新的药物靶点,根据特定细胞中展现的基因对肿瘤进行侧写,或者研究肠道细菌如何影响人类健康。总的来说,这些研究通常被称为“组学”。
十多年来,AWS 一直在帮助医疗保健和生命科学组织加快将这些数据转化为切实可行的见解。Ancestry、AstraZeneca、Illumina、DNAnexus、Genomics England 和 GRAIL 等行业领导者利用 AWS 加速探索,同时降低成本并增强安全性。
这些客户和其他客户的运营规模继续迅速扩大。当组学数据跨越成千上万或数十万(或更多!)个体时,会对个体进行比较和分析,有可能为预测疾病和不同药物治疗的疗效提供新的见解。
但是,这种规模(可能是数 PB 的数据)可能会增加复杂性。当我在博士课程中学习医学信息学时,经历了数据访问、处理和工具方面的此类复杂性。您需要一种经济高效且易于访问的组学数据存储方法。您需要对数百万个生物样本进行大规模计算,同时保持准确性和可靠性。您还需要专门的工具来分析人群中的遗传模式,训练机器学习(ML)模型来预测疾病。
今天,我很高兴地宣布 Amazon Omic 已正式上线,这是一项专门构建的服务,旨在帮助生物信息学家、研究人员和科学家存储、查询和分析基因组、转录组学和其他组学数据,然后从这些数据中得出见解,以改善健康状况和推进科学探索。
只需在 Omics 控制台中点击几下,您就可以将 PB 级的数据导入并标准化为经优化后用于分析的格式。Amazon Omics 提供可扩展的工作流和集成工具,用于准备和分析组学数据,并自动配置和扩展底层云基础架构。因此,您可以专注于推动科学发展,将发现转化为诊断和疗法。
Amazon Omics 有三个主要组成部分:
- 经过 Omics 优化的对象存储,可帮助客户以较低的成本高效地存储和共享数据。
- 生物信息学工作流程的托管计算,允许客户运行他们指定的精确分析,而不必担心底层基础架构的配置。
- 经优化的数据存储可用于人口规模变异分析。
现在让我们更多地了解 Amazon Omics 的每个组成部分。通常,它遵循以下步骤:创建数据存储和导入数据文件(例如基因组测序原始数据)、设置基本生物信息学工作流以及使用现有的 AWS 分析和机器学习服务分析结果。
Omics 控制台中的入门页面包含使用带有 Python SDK 的 Amazon SageMaker 笔记本电脑的教程示例。我将通过使用人类基因组参考的示例来演示 Amazon Omics 的功能。
Omics 数据存储
Omics 数据存储可帮助您高效地存储和共享数 PB 的组学数据。您可以在 Omics 控制台中创建数据存储和导入样本数据,也可以在 AWS 命令行界面(AWS CLI)中执行同一任务。
让我们创建参考存储库并导入参考基因组。此示例使用基因组参照序列联盟人类基因参考 38 版本(hg38),它提供开放访问,可从以下 Amazon S3 存储桶获得:s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta
。
作为先决条件,您需要在首选区域创建 Amazon S3 存储桶,并获得访问 S3 存储桶所必需的 IAM 权限。在 Omics 控制台中,您可以在 Omics 存储设置期间轻松创建和选择 IAM 角色。
使用以下 AWS CLI 命令创建参考存储,将基因组数据复制到 S3 存储桶,然后将其数据导入到参考存储中。
// 创建您的参考存储
$ aws omics create-reference-store --name "Reference Store"
// 将参考数据导入数据存储
$ aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta,name=hg38 s3://channy-omics
$ aws omics start-reference-import-job --sources sourceFile=s3://channy-omics/Homo_sapiens_assembly38.fasta,name=hg38 --reference-store-id 123456789 --role-arn arn:aws:iam::01234567890:role/OmicsImportRole
您也可以在控制台中看到结果。
现在即可创建序列存储。序列存储类似于 S3 存储桶。序列存储中的每个对象都被称为“读取集”。读取集是一组基因组文件类型的抽象:
- FASTQ – 基于文本的文件格式,用于存储有关来自定序器的基本(序列字母)的信息以及相应的质量信息。
- BAM – 原始读取的压缩二进制版本及其与参考基因组的映射。
- CRAM – 与 BAM 类似,但使用参考基因组信息来协助压缩。
Amazon Omics 允许您为导入的读取集指定特定域的元数据。这些信息可以在您启动读取集导入任务时搜索和定义。
例如,我们将使用 1,000 个基因组项目,这是一个非常详细的目录,包含超过 8,000 万个人类遗传变异,包含来自 2,500 多个个体的 4,000 多亿个数据点。让我们创建一个序列存储,然后将基因组序列文件导入其中。
// 创建您的序列存储
$ aws omics create-sequence-store --name "MySequenceStore"
// 将参考数据导入数据存储
$ aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://channy-omics
$ aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://channy-omics
$ aws omics start-read-set-import-job --cli-input-json ‘
{
"sourceFiles":
{
"source1": "s3://channy-omics/SRR233106_1.filt.fastq.gz",
"source2": "s3://channy-omics/SRR233106_2.filt.fastq.gz"
},
"sourceFileType": "FASTQ",
"subjectId": "mySubject2",
"sampleId": "mySample2",
"referenceArn": "arn:aws:omics:us-east-1:123456789012:referenceStore/123467890",
"name": "HG00100"
}’
您可以在控制台中再次看到结果。
分析转换
您可以存储涉及突变的变体数据、定序器在某个位置读取的内容与已知参考和注释数据之间的差异、有关基因组中位置或变体的已知信息,例如,是否可能导致疾病。
变体存储既支持变体调用格式文件(VCF),也支持包含基因组中每个位置记录的 gVCF 输入。注释存储支持通用要素格式(GFF3)、制表符分隔值(TSV)或 VCF 文件。在导入期间,注释存储可以映射到与变体存储相同的坐标系。
导入数据后,您现在可以运行如下查询,在人类 1 号染色体上搜索单核苷酸变异(SNV),这是人中最常见的遗传变异类型。
SELECT
sampleid,
contigname,
start,
referenceallele,
alternatealleles
FROM "myvariantstore"."myvariantstore"
WHERE
contigname = 'chr1'
and cardinality(alternatealleles) = 1
and length(alternatealleles[1]) = 1
and length(referenceallele) = 1
LIMIT 10
你可以看到该查询的输出:
# sampleid contigname start referenceallele alternatealleles
1 NA20858 chr1 10096 T [A]
2 NA19347 chr1 10096 T [A]
3 NA19735 chr1 10096 T [A]
4 NA20827 chr1 10102 T [A]
5 HG04132 chr1 10102 T [A]
6 HG01961 chr1 10102 T [A]
7 HG02314 chr1 10102 T [A]
8 HG02837 chr1 10102 T [A]
9 HG01111 chr1 10102 T [A]
10 NA19205 chr1 10108 A [T]
您可以通过与 Amazon Athena 等现有分析引擎集成来查看、管理和查询这些数据。这些查询结果可用于在 Amazon SageMaker 中训练机器学习模型。
生物信息学工作流
Amazon Omics 允许您在 AWS 上执行生物信息学工作流,例如变体调用或基因表达、分析。这些计算工作负载使用工作流描述语言(WDL)和 Nextflow 等工作流语言定义,这些语言是特定领域的语言,用于指定多个计算任务及其输入和输出依赖关系。
您可以使用几个简单的 CLI 命令定义和执行工作流。例如,使用以下 WDL 代码创建 main.wdl
文件,使用创建文件副本的任务创建简单的 WDL 工作流。
版本 1.0
workflow Test {
input {
File input_file
}
call FileCopy {
input:
input_file = input_file,
}
output {
File output_file = FileCopy.output_file
}
}
task FileCopy {
input {
File input_file
}
command {
echo "copying ~{input_file}" >&2
cat ~{input_file} > output
}
output {
File output_file = "output"
}
}
然后压缩您的工作流,通过使用 AWS CLI 的 Amazon Omics 创建工作流:
$ zip my-wdl-workflow-zip main.wdl
$ aws omics create-workflow \
--name MyWDLWorkflow \
--description "My WDL Workflow" \
--definition-zip file://my-wdl-workflow.zip \
--parameter-template '{"input_file": "input test file to copy"}'
要运行刚刚创建的工作流,您可以使用以下命令:
aws omics start-run \
--workflow-id // id of the workflow we just created \
--role-arn // arn of the IAM role to run the workflow with \
--parameters '{"input_file": "s3://bucket/path/to/file"}' \
--output-uri s3://bucket/path/to/results
工作流程完成后,您可以使用 s3://bucket/path/to/results
中的这些结果在 Omics 变体存储中进行下游分析。
您可以使用任务和定义的计算规格执行单次调用工作流的运行。单次运行对您定义的输入数据起作用并生成输出。运行也可以具有与其关联的优先级,这允许特定的运行优先于其他已提交的并发运行。例如,您可以指定优先级较高的运行将在优先级较低的运行之前运行。
您可以选择使用运行组、一组可以设置最大 vCPU 和最大持续运行时间的运行,以帮助限制每次运行使用的计算资源。这可以帮助您对可能需要访问不同工作流才能在不同数据上运行的用户进行分区。通过将用户隔离到特定的运行组,也可将其用作预算控制/资源公平机制。
如您所见,Amazon Omics 只需点击几下鼠标并使用简单的命令即可为您提供托管服务,以及用于分析大规模组学数据(例如人类基因组样本)的 API,因此您可以在数小时(而不是几周)内从这些数据中获得有意义的见解。我们还提供更多教程 SageMaker 笔记,您可以在 Amazon SageMaker 中使用这些笔记协助入门。
在数据安全方面,Amazon Omics 通过客户管理的加密密钥和 HIPAA 资格,帮助确保您的数据安全并保护患者隐私。
客户和合作伙伴的看法
医疗保健和生命科学行业的客户和合作伙伴分享了他们是如何使用 Amazon Omics 来加速获得科学见解的经验。
费城儿童医院(CHOP)是美国历史最悠久的专注于儿科的医院,致力于通过将卓越的患者护理和创新研究相结合,促进儿童医疗保健。AWS 与 CHOP 研究机构合作多年,因为他们在利用数据和技术解决儿童健康方面具有挑战性的问题方面处于领先地位。
“在费城儿童医院,我们知道,根据最具创新性的研究,全面了解我们的患者对于提供尽可能好的护理至关重要。结合多种临床模式是实现这一目标的基础。通过 Amazon Omics,我们可以扩充对患者健康状况的了解,甚至是他们的 DNA。”— 费城儿童医院副总裁兼首席研究信息官 Jeff Pennington
G42 Healthcare 支持人工智能驱动的医疗保健,利用数据和新兴技术实现个性化预防护理。
“Amazon Omics 允许 G42 通过全球领先的数据管理加速提供具有竞争力且可部署的端到端服务。我们能够利用 AWS 全球托管的大量组学数据管理和生物信息学解决方案,让客户唾手可得。我们与 AWS 的合作不仅仅在于数据,更关乎价值。”— Ashish Koshi,G42 Healthcare 首席执行官
C2i Genomics 汇集了研究人员、医生和患者,利用超灵敏的全基因组癌症检测来实现药物个性化、降低癌症治疗成本并加速药物开发。
“在 C2i Genomics 中,我们为数据科学家提供基于云的计算解决方案,让他们能够运行大规模、可定制的基因组管道,从而使他们能够专注于方法开发和临床性能,而公司的工程团队则负责工作负载的运营、安全和隐私方面。Amazon Omics 允许研究人员使用各自领域的工具和语言,在考虑成本和资源分配的同时,大大减少了工程维护工作,这反过来又缩短了新功能和算法改进的上市时间和 NRE 成本。”— Ury Alon,C2i Genomics 工程副总裁
我们很高兴能与我们的 AWS 合作伙伴携手合作,构建可扩展的多模式解决方案,将原始测序数据转换为见解。
Lifebit 为拥有复杂而敏感的生物医学数据集的组织构建企业数据平台,使生命科学领域的客户能够转变他们使用敏感生物医学数据的方式。
“在 Lifebit,我们的使命是连接世界生物医学数据,以获得新的治疗见解。我们的客户使用大量关联的基因组、多组学和临床数据,而且这些数据量正在迅速增长。借助 Amazon Omics,他们将能够对这些大规模数据进行优化的分析和存储,从而使我们能够提供更具可扩展性的生物信息学解决方案。我们的客户将受益于每千兆位数据成本的显著降低,基本上以冷存储价格实现热存储性能,从而消除成本作为从其人群规模的生物医学数据中获得见解的障碍。”— Thorben Seeger,Lifebit 首席业务发展官
要听取更多客户和合作伙伴的见解,请参阅 Amazon Omics 客户页面。
现已推出
Amazon Omics 现已在美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(法兰克福)和亚太地区(新加坡)区域推出。
要了解更多信息,请参阅 Amazon Omics 页面、Amazon Omics 用户指南、Genomics on AWS 以及 Healthcare & Life Sciences on AWS。尝试一下,请联系 AWS 基因组学团队 并通过常见的 AWS Support 联系人发送反馈。
– Channy