1000 Genomes Project 是一项国际合作研究的项目,它已建立了最详细的人类基因变异图谱,其中包括 SNP、结构性变异及其单倍体环境。此项目的最终阶段采集了世界各地 26 个种群的 2500 多人的基因序列,并建立了一整套分阶段的单倍体,其中包括这些个体的超过 8000 万变异。

Amazon 镜像包括此项目的完整数据集,这些数据收录在 s3.amazonaws.com/1000genomes 中。

有关详细信息,请访问 http://www.1000genomes.org。如有任何疑问,请发送电子邮件至 info@1000genomes.org。

AWS 正在努力让 1000 Genomes Project 数据免费向所有民众开放。AWS 中的公用数据集是 Amazon Simple Storage Service (Amazon S3) 中托管的公共数据的集中存储库。通过诸如 Amazon Elastic Compute Cloud (Amazon EC2) 和 Amazon Elastic MapReduce (Amazon EMR) 等 AWS 服务可以无缝访问这些数据,为组织提供了满足其需求且弹性极高的计算资源,方便其充分利用这些大型的数据集。面向广大社会提供的这种公用数据集存储服务 AWS 分文不取。研究人员只需要为进一步处理或分析数据支付额外的 AWS 资源使用费用。了解更多关于 AWS 中的公用数据集的情况。

最新的 1000 Genomes Project 数据在1000genomes Amazon S3 存储桶中公开提供。

只需通过 HTTP 请求或利用 AWS 开发工具包(支持的语言包括 Ruby、Java、Python、.NET 和 PHP)即可访问这些数据。

研究人员可以使用 Amazon EC2 公用计算服务来访问这些数据,无需投入此等规模数据通常产生的资金。AWS 还提供若干业务流程自动化服务,帮助研究团体将其研究项目提供给其他人进行混用和反复使用。

通过 Amazon S3 中的存储桶使数据可供使用,客户可以经由 Amazon Elastic MapReduce 使用使用 Hadoop 来处理信息,并利用日趋丰富的各种工具来执行生物信息学工作流,例如 CloudBurstCrossbow

美国国立卫生研究院国立生物技术信息中心 (NCBI) 是美国国立卫生研究院美国国家医学图书馆的下属机构:

欧洲生物信息研究所 (EMBL-EBI) 由惠康基金会 (Wellcome Trust) 提供支持:

教育工作者、研究人员和学生都可以申请免费信贷,利用 AWS 提供的公用计算平台以及诸如 1000 Genomes Project 数据这样的公用数据集。如果您正在运作基因研讨会或拥有可利用托管的 1000 Genomes 数据集的研究项目,则可以申请 AWS 补助