[SEO 副标题]
本指南展示了 TetraScience Tetra Data Platform(TDP)的多功能性及其与其他 AWS 服务的无缝集成能力。TDP 是一种云原生解决方案,用于管理来自各种来源的科学数据,例如仪器、合同研究组织、制造设施和软件系统。TDP 将这些数据集中到 AWS 上托管的科学数据湖中。您可以通过多种方式将 TDP 与 AWS 环境的其余部分集成,包括高性能计算(HPC)、数据分析、数据湖、机器学习(ML)和 AWS 合作伙伴解决方案。使用本解决方案中显示的多个接口,TDP 可以加速 AWS 上实验室数据网格的集成。
请注意:[免责声明]
架构图
[架构图描述]
第 1 步
Tetra Data Platform(TDP)连接您的仪器和软件系统,例如电子实验室笔记本电脑(ELN)和实验室库存管理系统(LIMS)。它还与合作伙伴组织建立联系,尽管此处未显示所需的各个连接器组件。TDP 还可以与合同研究组织(CRO)和合同制造与开发组织(CDMO)建立联系。
第 2 步
在将原始数据上传到 TDP 之前,管理员使用 Web 应用程序设置监控路径并提取元数据,包括时间、样本、用户和化验数据。身份验证使用 AWS Identity and Access Management(IAM)角色和凭证
第 3 步
TDP 收集、增强原始数据并将其存储在 Amazon Simple Storage Service(Amazon S3)存储桶中。元数据存储在 Amazon Relational Database Service(Amazon RDS)中,并复制到 Amazon S3 元数据存储桶。AWS Key Management Service(AWS KMS)对 TDP 中的所有数据进行加密。
第 4 步
TDP 将原始数据转换为经过工程处理的科学数据,并将其存储在 Tetra Data Amazon S3 存储桶中。
第 5 步
经过工程处理的科学数据转换为使用开源 Delta Lake 格式且由 AWS Glue 管理的表。
第 6 步
Amazon OpenSearch Service 维护数据搜索索引。
第 7 步
科学家登录 Web 应用程序搜索仪器、实验和化验数据。
第 8 步
目录共享界面允许数据管理员使用 AWS Glue Data Catalog 与 AWS Lake Formation 控制对 Tetra Data 表的访问,从而支持跨区域和账户的安全数据共享。
第 9 步
通过 Amazon Redshift Spectrum 和 Amazon Athena 提供的 SQL 接口,对存储在 Amazon S3 中并在 AWS Glue 中编录的 Tetra Data 进行交互式查询、分析和处理。Athena 支持在 AWS Glue 中注册的 Delta Lake 表。
第 10 步
科学家通过高性能计算、数据分析、数据湖、商业智能和机器学习来分析经过工程处理的科学数据(Tetra Data)。这种使用来自 Athena、Amazon Redshift 或 Lake Formation 公开的表目录。TDP 还使用 API 和 Webhook 提供软件集成。
第 11 步
在本地,科学家使用数据包创建图表、撰写报告并进行性能分析。
第 12 步
数据管理员通过提供 API 访问密钥和/或原生支持的集成(例如 Snowflake),将合作伙伴解决方案和软件即服务(SaaS)产品集成到 TDP 中。
Well-Architected 支柱
当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
本指南使用 Amazon CloudWatch 、AWS CloudFormation 和 Amazon Simple Notification Service(Amazon SNS)来增强卓越运营。CloudFormation 堆栈包含自定义警报,配置为根据系统行为自动调用操作,而 CloudWatch 控制面板会直观呈现历史性能数据。当超过阈值时,CloudWatch 警报可以通过 Amazon SNS 调用通知。这些服务共同实现了实时监控、警报和事件响应,从而确保 Tetra Data Platform 平稳运行,帮助您的团队在出现意外问题时提供及时有效的支持。
-
安全性
配置本指南时,我们建议使用 IAM、AWS KMS 和 AWS Secrets Manager 来增强您的安全状况。IAM 遵循最小权限原则,通过策略和角色对数据和资源实施严格的访问控制。AWS KMS 支持使用高级加密标准(AES)256 进行集中密钥管理和 256 位加密,以保护存储在 Amazon S3 中的敏感数据。密钥管理器集中管理外部 API 和 Amazon RDS 数据库的访问凭证。这些服务结合在一起,使您可以将加密、访问控制和密钥管理等安全最佳实践直接构建到 Tetra Data Platform 架构中。
-
可靠性
该架构中使用的完全托管的 AWS 服务会随着数据量的增长而自动扩展,保持 99.99% 的正常运行时间。具体而言,Amazon S3 通过冗余存储提供 99.999999999%(11 个 9)的耐久性和 99.99% 的可用性。Amazon RDS 通过同步复制在多个可用区(AZ)中部署,以实现高可用性。 OpenSearch Service 可自动跨可用区扩展以应对区域故障。通过在 AWS 内置可靠的基础设施上构建您的数据湖架构,您可以将可用性、备份、扩展和灾难恢复的责任转移给 AWS。
-
性能效率
Athena 和 OpenSearch Service 有助于提高工作负载的效率。Athena 并行完成查询,因此结果可在几秒钟内返回,而 Amazon OpenSearch 无服务器(OpenSearch Service 的按需自动扩展配置)会自动扩展资源,以在数据量增长时保持快速的摄取和查询速度。Athena 和 OpenSearch Service 减轻了微调数据管道和索引的负担,确保科学家对呈指数增长的数据集的查询做出快速响应。
-
成本优化
本指南使用 Amazon S3 和 Athena 来优化成本,其中 Amazon S3 提供价格低廉、可扩展的对象存储,而 Athena 仅对运行的查询收费。这些无服务器服务共同按需扩展,因此您只需按使用量付费。此外,随着访问模式的变化自动在 Amazon S3 存储类之间对数据进行分层可以提高性价比。Athena 还允许调整查询模式以最大限度地减少扫描的数据和成本。基于这种可变支出基础设施进行构建意味着您无需为未使用的容量付费。
-
可持续性
Amazon S3 的集中式数据湖消除了冗余副本,而 AWS Glue 对这些数据进行编目以供分析。这些按需服务相结合,可根据工作负载动态扩展,从而最大限度地提高资源利用率并最大限度地减少能源需求。通过无服务器架构避免过度预置,可以将能耗优化到仅满足当前工作负载所需的能耗。基于这种可变支出的基础设施意味着您不会让未使用的容量闲置。这样可以省下能源,用于获取洞察信息,而不是维护未使用的服务器。AWS 通过将计算成本与每个工作负载的实时接口模式相匹配,推动可持续创新。
实施资源
提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。
示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。
相关内容
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。