genomics-england-logo

Genomics England 在 AWS 上开发基因组和健康信息平台以将科学变成医疗保康

2021 年

癌症是全球头号死因,每年死亡人数近 1000 万人。罕见疾病影响全球超过 4 亿人,其中 95% 没有获批的治疗方案。在绝大多数病例中,癌症和罕见疾病都是基因组疾病,由单基因变异或多基因变异引起。世界各地的组织正在开始将基因学作为诊断和治疗患者的钥匙。

虽然每个人都有独特的遗传密码,但是研究人员需要可靠的来自类似患病和健康受试者的同期组数据,以确定基因组中致病区域的相似和差异。在全球的所有角落,政府机构、研究组织和公司都建立了全人口基因组学项目,旨在增进对病源的了解、确定新治疗方案,并推动基因组学从研究实践进入医疗环境。

Genomics England (GEL) 于 2013 年 7 月成立,作为英国国家医疗服务体系 (NHS) 建立 65 周年庆典的一部分。GEL 归英国卫生和社会保健部独资拥有,受托开展一个旗舰项目,对来自 NHS 罕见病患者及其家人以及常见癌症患者的 100,000 个完整基因组进行测序。在 2018 年成功地完成了试验项目后,NHS 宣布将与 GEL 和 UK Biobank 合作,在 5 年内对多达 500 万个基因组进行测序,并提供这些数据进行研究。

为了实现基因组医护,GEL 正在从项目过渡到平台,使用 Amazon Web Services (AWS) 工具让研究人员能够以可靠、全面且符合隐私的方式访问这些大规模数据集。通过安全的协作和分析,这项计划将可沟通诊断、促进药物开发,并解锁精准医学的未来。

工作中的基因组学研究人员
kr_quotemark

随着我们的工作持续进展并形成了更可靠的数据集,获得弹性存储和计算服务将使我们的组织和研究社区能够安全且经济高效地获取和分析数据。通过在 AWS 上托管,我们可以实现数据访问的民主化。”

Pete Sinden
Genomics England 首席信息官

赋予不断增长的基因组数据集可扩展性

仅凭着 100,000 个基因组项目,GEL 就已聚集了 50 PB 的数据 – 大约是整个国会图书馆大小的三倍。为了使研究社区能够访问这些数据,GEL 正在将其数据迁移到 AWS 以实现民主化访问。

“我们知道,若将 10 万基因组项目生成的数据交到研究社群手中,将在加速科学突破方面发挥至关重要的作用,我们正在努力将我们的数据迁移到 AWS 以实现此目标,”GEL 首席信息官 Peter Sinden 说。

为了对患者基因组形成更全面的理解,组织将会整合“长读”基因组格式与当前的“短读”格式。长读基因组包含的数据大约是短读的五倍,这将可为研究人员提供更多关于其研究的基因组每部分的信息,有可能发现以前未注意到的细微差别。

“随着我们的工作持续进展并形成了更可靠的数据集,获得弹性存储和计算服务将使我们的组织和研究社区能够安全且经济高效地获取和分析数据,”Sinden 补充道。“通过托管在 AWS 上,我们能够民主化地访问我们的数据。所有研究人员需要的只是一小笔预算来资助计算的成本和获得计算的能力。”

通过技术将科学变成医疗保健

GEL 的使命是创建可扩展且持久的数据基础设施,能够根据科学技术的进步不断进化。安全、合规性和民主化访问对于研究平台不可或缺,GEL 选择了 AWS 合作伙伴 Lifebit 在 AWS 上开发平台。他们与 AWS 一起,建立了可信研究环境 (TRE),让研究人员能够协同工作,并使用高级云计算工具从基因组数据中获取见解。

“我们的目标是让生态系统能够带来数据驱动型医疗保健并开展基因组研究,而 AWS 能让我们安全地完成这项使命,”Sinden 说。“通过获取最新的 GPU 和其他服务,我们能够自主创新并加快在医疗保健领域采纳基因组学的速度。”

GEL 在 AWS Migration Acceleration Program (MAP) 中借助 AWS 专业服务和 AWS 合作伙伴 Kainos 的力量 通过将 PB 级的基因组数据和本地研究环境迁移到 AWS,GEL 能够帮助更快地获得科学成果。使用云中的分析和工具还能使数据更加安全。存储在 Amazon Simple Storage Service (Amazon S3) 中的基因组数据持久性达到 99.999999999%。

对于基因组分析和相关计算需求,GEL 正在使用 Amazon Elastic Compute Cloud (Amazon EC2),在云中获得可靠、大小可调的计算容量。研究人员和数据科学家可以由此根据需要调整其计算容量,这样成本效益更高。Sinden 还指出,按随用随付方式运营是学术性和政府资助型研究的理想选择,因为这样能够灵活地适应拨款资金的波动。在 AWS 上构建之后,在其合作伙伴的帮助下 GEL 从成本和速度两个方面优化了其高性能计算架构,让研究人员在 23 秒之内就能执行常见任务,而这在以前需要 25 小时。

在 AWS 上打造云基因组学的未来

虽然许多大数据问题涉及管理大量的小文件,但是基因组学分析通常涉及相对较少的极大文件。因此,云基因组学需要独特的数据分布模型。GEL 与 AWS 合作,利用压缩技术和其他高级工具根据现场的具体需要优化基因组数据的云存储和分析。这种行业领先的冒险在今后几年中将会铺平高效且对研究友好的基因组数据管理之路。

了解更多

了解 AWS 如何启用云基因组学以解锁全球生命科学研究中的发现。


关于 Genomics England

建立 Genomics England (GEL) 的初衷是为了在英国运行 100,000 个基因组项目,它如今正在推动基因组研究应用于人类健康领域。GEL 由英国卫生和社会保健部拥有。

AWS 的优势

  • 将研究人员执行常见任务的时间缩短了 99%
  • 保证数以千计的基因组数据样本的安全性和持久性
  • 针对基因组数据集的独特需要优化了数据管理平台
  • 民主化的基因组研究访问

使用的 AWS 服务

AWS 专业服务

AWS 专业服务组织是由专家组成的全球团队,可以帮助您在使用 AWS 云时实现预期业务成果。

了解更多 »

Amazon S3

Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。

了解更多 »

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可以在云中提供安全并且可应需调整的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。

了解更多 »

MAP

AWS Migration Acceleration Program (MAP) 是一个全面且经过验证的云迁移程序,基于 AWS 将数以千计的企业客户迁移到云中的经验开发。企业迁移复杂且耗时,但 MAP 可以通过结果驱动型方法帮助您加快云迁移速度和现代化进程。

了解更多 »


开始使用

不同行业和规模的公司都在使用 AWS,将其日常业务运营进行转型。联系我们的专家,立即踏上您的 AWS 云之旅。