[SEO 副标题]
本指南介绍了如何在 AWS 上构建数据网格架构,以实现分散的、域驱动的数据管理方法。它为您提供所有权和灵活性,以提供有价值的数据产品,促进更好的决策、个性化体验和运营效率。该指南阐述了如何通过典型数据网格设计中的分布式、去中心化所有权,利用各种 AWS 服务、用户和关键资源来应对高级数据安全挑战。根据本指南,可以通过集中管理的数据共享和治理准则有效地统一和链接不同的数据来源。这使您可以控制如何访问共享数据、谁可以访问共享数据,以及访问格式。
请注意:[免责声明]
架构图
![](https://d1.awsstatic.com/apac/events/2021/aws-innovate-aiml/2022/eng/innovate-aiml-22-UI_Gradient-Divider.082bb46e8d9654e48f62bf018e131dd8ec563c4e.jpg)
-
概述
-
架构和核心 AWS 服务
-
概述
-
此架构图描绘了数据网格设计的总体情况,该设计可实现分布式数据所有权和控制权,同时提供集中式数据共享和治理,以应对安全挑战。随后的图表重点介绍了实施该设计模式时使用的基本 AWS 服务。
第 1 步
多个数据创建者账户存在于不同的业务领域和团队中。第 2 步
数据生产者收集和转换数据以生成可共享的数据资产,这些资产主要由技术元数据目录、数据库和可扩展存储组成。数据生产者有责任整理数据资产并使其保持最新状态。第 3 步
一个中央治理账户充当数据生产者和数据消费者之间的桥梁。它不保存实际数据。第 4 步
数据管理员使用业务元数据维护和丰富不同账户的企业数据目录。 数据管理员创建数据生产者注册数据资产和数据消费者访问数据所需的必要权限。第 5 步
中央治理账户维护企业数据目录,并通过相应的访问策略和加密密钥来丰富业务目录。第 6 步
中央治理账户保存所有日志(包括访问日志和数据共享对象日志),并支持审计报告。第 7 步
多个数据消费者账户存在于不同的业务领域和团队中。第 8 步
数据消费者账户搜索企业数据目录,请求访问数据资产,并在获得访问权限后使用自己的计算资源来分析数据。 -
架构和核心 AWS 服务
-
此架构图展示了关键的 AWS 服务,这些服务使本指南的各个组件能够在 AWS 上的数据网格架构中无缝运行。
第 1 步
数据生产者用户或角色通过 AWS Identity and Access Management(IAM)和/或通过 AWS IAM Identity Center 集成的单点登录(SSO)提供程序[例如 Okta 和 Azure Active Directory(Azure AD)]进行身份验证。附加相应策略以支持其发布数据资产。第 2 步
准备共享的数据资产保存在 Amazon Simple Storage Service(Amazon S3)和 Amazon RedShift 等可扩展数据存储中。第 4 步
Amazon DataZone 和 AWS Lake Formation 使用 AWS Glue 和 Amazon Redshift 的数据目录来生成可共享的技术元数据。第 5 步
数据管理人员和数据管理员通过 IAM 和/或 SSO 提供程序对用户和角色进行身份验证,这些提供程序通过 IAM Identity Center 集成。附加相应策略以支持其发布数据资产。第 6 步
AWS Key Management Service(AWS KMS)对静态和传输中的数据进行加密。AWS Secrets Manager 保存数据库凭证等机密。第 7 步
Lake Formation 向消费者用户和角色授予对存储在 Amazon Redshift 中的生产者数据的访问权限。Amazon DataZone 域通过添加业务元数据来丰富数据目录中存储的元数据。第 8 步
所有访问日志均可在 Lake Formation、Amazon CloudWatch 和 AWS CloudTrail 中找到,用户可以利用它们进行监控和审计。第 9 步
IAM 和/或 SSO 系统通过 IAM Identity Center 集成,用于对数据消费者用户和角色进行身份验证。第 10 步
消费者使用基于 Lake Formation 的访问权限进一步细化访问权限。此外,他们还使用 Amazon DataZone 域根据元数据搜索数据资产。第 11 步
消费者自带计算服务。例如,数据科学家使用 Amazon SageMaker 进行机器学习(ML)转换,对生成式人工智能(AI)应用程序使用 Amazon Bedrock。数据工程师使用 AWS Glue 和 Amazon EMR 进行数据转换。数据分析师使用 Amazon Athena 进行分析,商业智能分析师使用 Amazon QuickSight 进行数据可视化。
Well-Architected 支柱
![](https://d1.awsstatic.com/apac/events/2021/aws-innovate-aiml/2022/eng/innovate-aiml-22-UI_Gradient-Divider.082bb46e8d9654e48f62bf018e131dd8ec563c4e.jpg)
当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
您可以通过 CloudWatch 全面了解您的资源和服务,从而实现主动监控、快速故障排除和及时事件响应。您还可以通过 CloudTrail 审核 AWS 账户,通过详细的活动日志支持治理和合规性。使用这些服务可以维护架构的卓越运营并有效应对事件和事故。
-
安全性
使用 IAM 和 AWS KMS 优先考虑数据和资源的安全。IAM 允许您集中管理细粒度的权限,指定谁或什么可以访问您的 AWS 服务和资源。另一方面,AWS KMS 允许您定义静态和传输中数据加密的加密密钥,从而保护敏感信息的机密性和完整性。
-
可靠性
使用 Amazon S3 和 Data Catalog 保障数据和应用程序的可靠性。Amazon S3 旨在提供高耐用性和可用性,可自动在多个可用区域复制您的数据。Data Catalog 充当集中式元数据存储库,帮助您在不同的数据存储中维护一致且可靠的数据来源视图。
-
性能效率
使用 Amazon Redshift 和 Athena 优化数据处理和分析的性能。Amazon Redshift 是一项完全托管的大规模并行处理(MPP)数据仓库服务,可帮助您快速且经济高效地做出业务决策。Athena 是一项无服务器交互式查询服务,让您可以使用标准 SQL 直接在 Amazon S3 中分析数据,而无需管理任何基础设施。
-
成本优化
作为一项完全托管的无服务器服务,Amazon S3 无需配置和管理基础设施,从而降低了相关成本。使用 Amazon S3 提供的各种存储类,包括 Amazon S3 Intelligent-Tiering storage class、S3 Standard、S3 Standard-IA 和 S3 Glacier,以最具成本效益的选项满足您的数据存储和访问需求。
-
可持续性
Amazon DataZone 有助于减少数据冗余、执行数据治理策略并促进安全的数据共享,从而优化存储使用率并降低对环境的影响。通过集中数据并启用协作数据共享,您可以最大限度地降低整个组织内部对数据重复需求,从而帮助建立更可持续的数据环境。
实施资源
![](https://d1.awsstatic.com/apac/events/2021/aws-innovate-aiml/2022/eng/innovate-aiml-22-UI_Gradient-Divider.082bb46e8d9654e48f62bf018e131dd8ec563c4e.jpg)
提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。
示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。