跳至主要内容

云计算加速组学数据解读

随着基因学技术被广泛应用于医学及生命科学各个领域,例如个体性治疗、药物研发、流行病监测等,将会产生庞大的数据,随之而来的挑战包括:如何以可接受的成本存储数据、完成高效地传输、实现分析工作流程可重现和自动化,以及对大规模多组学数据集进行整合,并利用机器学习加速分析。此外,也需要遵守严苛的个人健康隐私保护法规,确保个体健康信息安全。亚马逊云科技提供经过验证的云计算平台,完善的多组学分析工具,以及合作伙伴解决方案,从而帮助用户和科研人员提升深入准确探究问题的速度,更快地进行开创性研究,并能将精准医疗产品更快推向市场。

构建精准基因 分析患者的基因

最新白皮书

Missing alt text value

《基于亚马逊云科技实现基因组学数据传输、分析及机器学习》

基因组学市场竞争激烈,因此拥有一个能够快速采用新方法和新技术的开发周期至关重要。本电子书通过展示如何使用亚马逊云科技服务建立一个从测序仪到解释的基因数据分析平台,帮组解决从事基因组学数据工作的组织所面临的一些关键问题。我们提供了开发平台的建议和参考架构,包括:1. 将基因组学数据转移到AWS云并建立数据访问模式; 2. 运行二级分析工作流程;3. 用数据湖进行三级分析;4. 用机器学习进行三级分析。这些解决方案利用持续交付 (CD),允许你开发适合自己组织需求的解决方案。  

Missing alt text value

《基于亚马逊云科技实现基因组学数据传输、分析及机器学习》

基因组学市场竞争激烈,因此拥有一个能够快速采用新方法和新技术的开发周期至关重要。本电子书通过展示如何使用亚马逊云科技服务建立一个从测序仪到解释的基因数据分析平台,帮组解决从事基因组学数据工作的组织所面临的一些关键问题。我们提供了开发平台的建议和参考架构,包括:1. 将基因组学数据转移到AWS云并建立数据访问模式; 2. 运行二级分析工作流程;3. 用数据湖进行三级分析;4. 用机器学习进行三级分析。这些解决方案利用持续交付 (CD),允许你开发适合自己组织需求的解决方案。  

基因分析领域的挑战

百万级别人群基因及多组学数据分析

随着各国进行百万人群规模的基因及多组学数据分析,研究人员临床工作者,需要能轻松地存储和分析整个人群的基因组数据,基于多组学数据分析研究人员能够更加精准预测个人是否容易患某些疾病。

使用多种专业工具和工作流程语言

基于不同种类的组学数据,需要实现利用不同专业工具算法进行分析,并根据临床,科学研究等不同场景构建相适应的工作流。也需要同大规模数据集相结合,构建完整视图。

需要满足安全、隐私和合规要求

需要符合 HIPAA 或 GDPR 标准等各国对于个人信息,健康数据的监管要求。对数据实现细颗粒度的访问控制及数据治理。全面的日志记录和数据出处是内置的,因此您可以知道您的数据发生了什么,数据何时被访问,以及谁访问了它。

亚马逊云科技基因组学解决方案

Amazon Omics 将基因组、转录组和其他组学数据转化为见解

Amazon Omics 提供专门构建的服务,帮助医疗保健和生命科学组织,存贮,查询和分析基因组学,转录组学和其他组学数据,然后从这些数据中产生见解,以改善精准诊疗,并促进科学发现。

观看视频

下载解决方案

应用场景

  • 规模化群体测序 :存储和分析数十万患者的组学数据,以了解组学变异如何映射到整个群体的表现型。
  • 简化临床多组学:构建可复制和可追溯的临床多组学工作流程,以减少周转时间和提高生产力。
  • 加速临床试验:将多组学分析纳入临床试验,来测试新候选药物的疗效、加速试验和实现长期成本节省。
  • 加强研究与创新:使用内置访问权限控制来简化匿名组学数据的存储和分析,让研究人员更安全地共享数据。
Missing alt text value

基因二级分析最佳实践解决方案

该解决方案包含一个数据传输与交付、智能调度与自动扩展的基因分析集群,是成本控制、组织管理及安全合规的最佳实践;结合业界主流的 Cromwell 和 SGE 工具,生物信息工程师可轻松通过熟悉的 WDL 语言实现任务编排。利用云计算按需付费模式节省大量硬件成本,同时在云端进行 DNA 分析时可利用亚马逊云科技的 Auto Scaling 功能横向自动扩展资源。
我们提供了开发平台的建议和参考架构,包括:1. 将基因组学数据转移到AWS云并建立数据访问模式; 2. 运行二级分析工作流程;3. 用数据湖进行三级分析;4. 用机器学习进行三级分析。这些解决方案利用持续交付 (CD),允许你开发适合自己组织需求的解决方案。

下载高清架构图

方案优势

  • 一键部署:亚马逊云科技云端基因分析方案可一键快速部署在客户自己的公有云环境中。
  • 灵活度高:具备高度的灵活性、可定制性以及效率。将管理工具与生产工具有效融合,加强了安全性和规范性,提升了计算资源的使用效率。
  • 优化成本:可实现有效的组织管理和精准的成本监控。通过使用 Spot 实例对成本进行优化和精确核算。
Missing alt text value

精细化 HPC 集群监控方案

本方案基于 Amazon ParallelCluster,HPCWatch Agent,及Grafana,不仅实现线程级动态伸缩容计算节点的资源情况收集、备份,而且构建相对应的监控看板实现可视化,方便用户和自有的监控平台进行集成分析优化。

下载高清架构图

方案优势

  • 精细化监控信息:一般的监控方案只能收集到计算节点信息,该方案可以收集任务线程级别的监控信息。
  • 灵活的可视化平台:通过 Grafana 可以自由的配置 Dashboard,并且可以创建告警通知,搭建个性化可视平台。
  • 自动备份监控信息:自动将监控信息备份到 亚马逊对象存储 S3 的冷存储层中,降低存储成本。
  • 一键快速部署:快速部署,通过 CloudFormation 的方式实现一键快速部署。
  • 降低成本:采用 AWS Graviton 的方式降低成本。
Missing alt text value

容器化基因分析解决方案

随着技术的发展,越来越多的用户选择基于容器化的基因分析方案,以实现更小颗粒度管理及监控,从而满足业务的不断发展。本方案,结合亚马逊云科技自身产品特点构建了不同的容器化架构以适用于不同的基因数据分析用户场景。

下载高清架构图

方案优势

  • 云原生 :AWS 高性能计算、存储、网络等各种服务无缝集成,性能优异。
  • 高效率:一次递交,流程自动执行,支持串行和并行步骤,减少手工操作;分析结果自动通知。
  • 成本优化:计算资源根据实际需求动态分配和回收;流程解耦,每个步骤用最适合的计算资源,不浪费;存储自动生命周期管理。
  • 兼容性高:支持第三方的工作流编排引擎,如 Cromwell 和 Nextflow 等。
  • 安全合规:网络隔离;满足各种合规性要求,如 SOC、PCI、FedRAMP、HIPAA 等。














下载高清架构图







Missing alt text value

多组学数据分析最佳实践解决方案

该解决方案帮助用户准备基因组、临床、突变、表达和成像数据以进行大规模分析,并针对数据湖执行交互式查询,包括作为代码自动化的基础架构、用于转换数据的摄取管道,以及用于交互式分析的笔记本和仪表板。

下载高清架构图

方案优势

  • 轻松准备和加载数据 :通过 Amazon Glue 对来自癌症基因组图谱 (TCGA) 计划、癌症影像档案 (TCIA)、1000 Genomes 项目和 ClinVar 的多组数据集进行准备,方便大规模分析与查询。
  • 可视化界面:通过 Amazon QuickSight 中的可视界面分析多模式数据;数据缓存在 SPICE(超快速、并行、内存计算引擎)数据库中,优化查询性能。
  • 加速构建与协作:通过 Amazon SageMaker 笔记本环境提供的一键式 Jupyter 笔记本分析数据,几秒钟内立即开始工作;后台自动弹性调节资源,不会造成中断;自动捕获代码依赖项,方便协作与同步。

Missing alt text value

精选案例及参考架构

百嘉医疗解决方案

Missing alt text value 亚马逊云科技不仅输出高效稳定、成本效益极佳的 IaaS 层云服务,还提供丰富的医疗行业解决方案供选择,让我们能够更好的重塑自身的技术架构,加速中国业务落地,实现创新研发。Human Longevity 采用亚马逊云科技的产品包括: Amazon EKS、Amazon Fargate、Amazon RDS、Amazon Batch、Amazon API Gateway、Amazon Lambda、Amazon Transit Gateway、Amazon S3 等。 下载解决方案

亚马逊云科技助力翼方健数化解数据安全和开放应用的矛盾

Missing alt text value 使用亚马逊云科技半个月就完成了一方平台的开发和部署, 上线周期缩短 75%。亚马逊云科技还提供了多种安全保护,加上翼方健数的隐私安全计算技术栈,让平台真正解决了数据安全和开放应用的矛盾。 下载解决方案

知识图谱助力生命科学再创新解决方案

Missing alt text value 基于亚马逊云科技,柯基数据在五天内上线了新冠 AI 问答机器人,系统准确率达 95% 以上。柯基数据的各类医学信息知识图谱和智能问答平台服务均构建在亚马逊云科技上,其强大的亚马逊云科技合作伙伴网络为柯基数据创新发展带来无尽的想象空间。 下载解决方案

桐树基因基于亚马逊云科技显著提升基因数据智能分析速度

Missing alt text value 亚马逊云科技的冷热存储分离、面向对象的存储、容器化应用、一键式构建并行化集群和分布式集群等功能,十分有效地解决了精准医学数据,特别是由二代高通量测序产生的数据量大,对存储、I/O、算力要求高的问题,有助于根据不同的临床场景、检测技术、分析特征组合不同的容器化分析模块、搭建不同的分析流程,准确快速完成大批量、大样本的数据分析解读,以极快的速度将检测结果呈递到医生和患者面前。目前,桐树基因使用的亚马逊云科技服务包括 Amazon Simple Storage Service (Amazon S3)、 Amazon FSx for Lustre、 Amazon Elastic Block Store(EBS)、 Amazon Elastic Compute Cloud (Amazon EC2) 、 Amazon Elastic Container Registry(ECR)、 Amazon CloudFormation 、 Amazon ParallelCluster 、 Amazon Batch 、 Amazon Lambda 等等。 下载解决方案

选择亚马逊云科技云,生物信息行业的沃土

Missing alt text value 2018年开始,未知君将相关的业务流程迁移至云端运行,利用亚马逊云科技云的可扩展性,满足重量级计算任务对时间的要求。未知君首席生信科学家胡函博士说:“生信分析是最消耗资源的业务之一,此前在本地数据中心的配置条件下,生信分析业务的相关数据处理工作需要一个月时间,采用亚马逊云科技云之后,同样的工作只需1到2天就能完成。” 下载解决方案

Missing alt text value 百嘉医疗参考架构
Missing alt text value 翼方健数参考架构
Missing alt text value 知识图谱参考架构

Missing alt text value 桐树基因参考架构

Missing alt text value 未知君参考架构

开放数据集

亚马逊云科技开放数据计划 (ODP) 通过使数据在 Amazon S3 中随时可用,帮助数据访问民主化,为研究社区提供了一个单一的事实来源。有关可用的超过 65 个基因组开放数据集的完整列表,请参阅亚马逊云科技开放数据计划 (ODP)

            免费套餐点击试用

            Amazon EC2

            计算               12 个月免费

            云中可调整大小的计算容量

            每月 750 小时

            *适用于北京和宁夏区域

            ________________________________________________

            • 每月 750 个小时的 Linux、RHEL 或 SLES t2.micro 或 t3.micro 实例使用时间
            • 每月 750 个小时的 Windows t2.micro 或 t3.micro 实例使用时间

            Amazon S3

            存储         12 个月免费

            安全、持久并且可扩展的对象存储基础设施。

            5GB 标准存储

            *适用于北京和宁夏区域

            ________________________________________________

            • 5GB 标准存储
            • 20,000 个 Get 请求
            • 2,000 个 Put 请求

            Amazon RDS

            数据库         12 个月免费

            适用于 MySQL、PostgreSQL、MariaDB、Oracle BYOL 或 SQL Server 的托管关系数据库服务

            每月 750 个小时的 db.t2.micro, db.t3.micro 和 db.t4g.micro Instances 数据库使用时间(适用的数据库引擎)

            *适用于北京和宁夏区域

            ________________________________________________

            • 每月 750 个小时的单可用区 db.t2.micro, db.t3.micro 和 db.t4g.micro Instances 数据库使用时间(适用的数据库引擎)
            • 20GB 通用型 (SSD) 数据库存储
            • 20GB 数据库备份和数据库快照存储

            Amazon DynamoDB

            数据库         永久免费

            快速灵活的 NoSQL 数据库,具有无缝可扩展性

            25GB 的存储

            *仅适用于宁夏区域

            ________________________________________________

            • 25GB 的存储
            • 25 个预置写入容量单位 (WCU)
            • 25 个预置读取容量单位 (RCU)
            • 足以处理每月最多 2 亿次请求

            提高安全性和合规性标准

            为帮助基因组学领域的企业遵守行业合规性法规并保护个人健康信息,亚马逊云科技坚守比任何其他产品更多的安全标准并具有更多合规性认证,符合或通过全球超过 50 项生命科学合规要求,其中包括美国 HIPAA、HITRUST、FedRAMP,欧盟 GDPR 合规性,ISO 27001、ISO 9001 和 ISO 3425。亚马逊云科技在中国的合作伙伴:宁夏西云及光环新网分别符合三级等保要求,以及可信云认证。也是符合中国科技部人类遗传办公室中方注册单位要求。
            阅读摘要 »

            亚马逊云科技基因组学初创企业扶持计划

            Missing alt text value

            亚马逊云科技云创计划

            加入云创计划,获得亚马逊云科技中国区域价值 3,500 人民币起的亚马逊云科技服务抵扣券,或亚马逊云科技海外区域价值 1,000 美元起的亚马逊云科技服务抵扣券。
            Missing alt text value

            亚马逊云科技联合创新中心

            亚马逊云科技整合了包括各地政府、产业合作方以及专业运营方在内的各方优势资源,共同投入建设联合创新中心,下设孵化器、国际化项目、加速器和云创人才培养基地等模块。

            上海亚马逊云科技生命健康数字化赋能中心

            上海亚马逊云科技生命健康数字化赋能中心(Healthcare and Life Science Industry Digitalization Acceleration Center, HCLS IDAC)是亚马逊云科技在中国设立的首个赋能中心,致力于加速中国医疗和生命科学行业的数字化转型与创新。该中心坐落于上海市徐汇区,由亚马逊云科技与上海市徐汇区政府合作成立,旨在整合徐汇区在生命健康行业的区位优势,以及亚马逊云科技全球领先的云技术和服务,其在生命健康行业的解决方案、在生命科学、健康、基因组学等领域的全球专业知识和最佳实践,以及全球合作伙伴网络资源,协同中国的技术合作伙伴,推动行业数字化解决方案在中国落地,加速本地产业发展,并通过多个维度解决行业痛点,为生命健康行业赋能。
            Modern entrance of the AWS China office with two people standing at the entrance and stylish interior design visible inside.