亚马逊AWS官方博客
Amazon DataZone 现已正式发布 – 跨组织边界解锁数据价值
今天,我们宣布 Amazon DataZone 正式发布,这是一新的数据管理服务,用于在组织中的数据生产者和使用者之间进行数据编目、发现、分析、共享和管控。
在 2022 年的 AWS re:Invent 上,我们预先宣布推出 Amazon DataZone,并在 2023 年 3 月公开发布预览版。
在上一届 re:Invent 大会的主题演讲中,AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 表示:“作为 DataZone 的早期客户,我有幸主持了 AWS 每周业务审查会议,在会上我们汇总了销售渠道和收入预测数据,为我们的业务战略提供依据。”
在主题演讲中,Amazon DataZone 产品主管 Shikha Verma 主持了一个演示,展示了组织如何使用该产品来创建更有效的广告活动并充分利用其数据。
“每个企业都由多个团队组成,他们拥有和使用各种数据存储中的数据。数据人员必须将这些数据汇集在一起,但没有一种简单的方法来访问甚至查看这些数据。DataZone 提供了一个统一的环境,组织中的每个人(从数据生产者到使用者)都可以通过受管控的方式访问和共享数据。”
借助 Amazon DataZone,数据生产者可利用 AWS Glue Data Catalog 和 Amazon Redshift 表中的结构化数据资产来填充业务数据目录。数据使用者搜索和订阅数据目录中的数据资产,并与其他业务用例协作者共享。使用者可以利用直接从 Amazon DataZone 门户访问的 Amazon Redshift 或 Amazon Athena 查询编辑器等工具分析其订阅的数据资产。集成的发布和订阅工作流提供了跨项目的访问审计功能。
Amazon DataZone 简介
对于那些还不熟悉 Amazon DataZone 的人,让我向您介绍其主要概念和功能。
Amazon DataZone 域代表组织内可以管理自己数据的业务线(LOB)或业务领域的独特边界,包括自己的数据资产和自己对数据或业务术语的定义,并且可能有自己的管控标准。该域包含所有核心组件,例如数据门户、业务数据目录、项目和环境以及内置工作流程。
- 数据门户(在 AWS 管理控制台之外)– 这是一个 Web 应用程序,不同的用户可以在其中以自助方式对数据进行编目、发现、管控、共享和分析。数据门户使用 AWS Identity and Access Manager(IAM)凭证或身份提供商通过 AWS IAM Identity Center 提供的现有凭证对用户进行身份验证。
- 业务数据目录 – 在目录中,您可以定义分类法或业务词汇表。您可以使用此组件根据业务背景对整个组织的数据进行编目,从而使组织中的每个人都能快速查找和理解数据。
- 数据项目和环境 – 通过创建基于业务用例的人员分组、数据资产和分析工具,您可以使用项目来简化对 AWS 分析的访问。Amazon DataZone 项目为项目成员提供了一个可以协作、交换数据和共享数据资产的空间。在项目中,您可以创建为项目成员提供分析工具和存储等必要基础设施的环境,以便项目成员可以轻松生成新数据或使用他们有权访问的数据。
- 管控和访问控制 – 您可以使用内置的工作流程,允许整个组织的用户请求访问目录中的数据,并允许数据所有者查看和批准这些订阅请求。订阅请求获得批准后,Amazon DataZone 可通过管理 AWS Lake Formation 和 Amazon Redshift 等底层数据存储的权限自动授予访问权限。
要了解更多信息,请参阅 Amazon DataZone 术语和概念。
开始使用 Amazon DataZone
首先,请考虑一个场景,即产品营销团队想要开展活动以推动产品采用。为此,他们需要分析销售团队拥有的产品销售数据。在本演练中,作为数据生成者的销售团队在 Amazon DataZone 中发布销售数据。然后,充当数据使用者的营销团队订阅销售数据并对其进行分析,以制定活动策略。
要了解 DataZone 的工作原理,让我们来看一下 Amazon DataZone 入门指南的精简版。
1.创建域
首次开始使用 DataZone 时,首先要创建一个域,然后所有核心组件(如数据门户中的业务数据目录、项目和环境)都存在于该域中。转到 Amazon DataZone 控制台,然后选择创建域。
输入域名和描述,并将所有其他值保留为默认值。
例如,在服务访问权限部分,如果您选择默认的创建并使用新角色,Amazon DataZone 将自动创建一个具有必要权限的新角色,以授权 DataZone 代表域内的用户进行 API 调用。选中快速设置功能选项,DataZone 可以在其中完成所有设置步骤。
最后,选择创建域。Amazon DataZone 将创建必要的 IAM 角色并允许该域使用您账户中的资源,例如 AWS Glue Data Catalog、Amazon Redshift 和 Amazon Athena。域创建可能需要几分钟才能完成。等待域变为可用状态。
2.在数据门户中创建项目和环境
成功创建域后,将其选中,然后在该域的摘要页面,记下根域的数据门户 URL。您可以使用此 URL 访问您的 Amazon DataZone 数据门户。选择开放数据门户。
要创建新的数据项目作为销售团队来发布销售数据,请选择创建项目。
在对话框中,输入“销售生产商项目”作为名称,然后输入该项目的 说明并选择创建。
项目完成后,您需要创建一个环境,以便在此项目中使用 Amazon Athena 或 Amazon Redshift 等数据和分析工具。在概述页面中或单击环境选项卡后选择 创建环境。
输入“publish-environment”作为名称,然后输入此环境的说明并选择环境配置文件。环境配置文件是一个预定义的模板,其中包含创建环境所需的技术细节,例如向项目添加了哪些 AWS 账户、区域、VPC 详细信息以及资源和工具。
您可以选择几个默认的环境配置文件。选择 DataLakeProfile 可让您基于 Amazon S3 和 AWS Glue 的数据湖发布数据。它还可以简化使用 Amazon Athena 访问的 AWS Glue 表的查询。
接下来,忽略所有可选参数并选择创建环境。该环境需要大约一分钟的时间才能在您的 AWS 账户中创建某些资源,例如 IAM 角色、Amazon S3 后缀、AWS Glue 数据库和 Athena 工作组,这样项目成员就可以更轻松地在数据湖中生成和使用数据。
3.在数据门户中发布数据
您拥有在 AWS Glue 表中发布数据的环境。要在 Amazon Athena 中创建该表,请选择环境页面右侧带有 Athena 链接的查询数据。
这将在新选项卡中打开 Athena 查询编辑器。从数据库下拉列表中选择 publishenvironment_pub_db
,然后将以下查询粘贴到查询编辑器中。这将在环境的 AWS Glue 数据库中创建一个名为 catalog_sales
的表。
CREATE TABLE catalog_sales AS
SELECT 146776932 AS order_number, 23 AS quantity, 23.4 AS wholesale_cost, 45.0 as list_price, 43.0 as sales_price, 2.0 as discount, 12 as ship_mode_sk,13 as warehouse_sk, 23 as item_sk, 34 as catalog_page_sk, 232 as ship_customer_sk, 4556 as bill_customer_sk
UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551
UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565
UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563
UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562
UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555
UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556
UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551
UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563
UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557
UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561
您可以在下拉菜单中看到两个数据库。publishenvironment_pub_db
将为您提供生成新数据并选择将其发布到 DataZone 目录的空间。另一个数据库是 publishenvironment_sub_db
,适用于订阅或访问该项目目录中数据的项目成员。
确保成功创建 catalog_sales
表。现在,您有了可以发布到 Amazon DataZone 目录中的数据资产。
作为数据生产者,您现在可以返回数据门户并将此表发布到 DataZone 目录中。在顶部菜单中选择数据选项卡,在左侧导航窗格中选择数据来源。
您可以看到在您的环境中自动创建的默认数据来源。打开该数据来源后,您将看到环境的发布数据库,我们刚刚在其中创建了 catalog_sales
表。
该数据来源会将其在发布数据库中找到的所有表引入 DataZone。默认情况下,自动元数据生成已启用,这意味着该数据来源引入 DataZone 的任何资产都将自动生成该资产的表和列的业务名称。在此数据来源中选择运行。
数据来源完成运行后,您可以在数据来源运行中看到 catalog sales
表。
打开该资产,可以看到发布任务可以自动提取技术元数据,包括表的模式和其他一些技术细节,如 AWS 账户、区域和数据的物理位置。
如果这些建议看起来正确,您只需点击每个建议项目中的大脑图标或点击所有建议的全部接受按钮即可接受所有建议。准备好发布后,选择发布资产并在对话框中再次确认。
4.以数据使用者的身份订阅数据
现在,让我们把角色切换到营销团队,看看如何订阅或请求访问该表。重复此操作,作为数据使用者,使用与以前相同的步骤创建名为“Marketing consumer project”的新项目和名为“subscriber-environment”的新环境。
在新创建的项目中,当您在搜索栏中键入“catalog sales”时,可以在搜索结果中看到已发布的表。选择目录销售数据。
在目录中,选择订阅。
在订阅目录销售数据窗口中,选择您的营销使用者项目,提供订阅请求的原因,然后选择订阅。
当您作为数据生产者收到订阅请求时,它将通过销售生产者项目中的任务通知您。由于您在这里既是订阅者又是发布者,因此您将看到一条通知。
当您点击此通知时,它将打开订阅请求,包括哪个项目已请求访问权限、请求者是谁以及他们为什么需要访问权限。选择批准并提供批准理由。
现在,订阅已获得批准,您可以在营销使用者项目中查看目录销售数据。要确认这一点,在顶部菜单中选择数据选项卡,在左侧导航窗格中选择数据来源。
要分析您的订阅数据,在顶部菜单中选择环境选项卡,然后选择您在营销使用者项目中创建的 Subscribe-environment。它会在右侧窗格中显示一个新的查询数据链接。
我们可以看到在订阅数据库下显示的目录销售表。
为了确保我们可以访问该表,我们可以先预览该表,并可以看到查询已成功执行。
这将在新选项卡中打开 Athena 查询编辑器。从数据库下拉列表中选择 subscribeenvironment_sub_db
,然后在查询编辑器中输入您的查询。
现在,您可以对作为使用者(营销团队)订阅并由生产者(销售团队)发布到业务数据目录中的销售数据表运行任何查询。
有关更详细的演示,例如发布 AWS Glue 表格以及 Amazon Redshift 表格和视图,请观看 YouTube 播放列表。
GA 最新资讯
在预览期间,客户对我们产生了浓厚的兴趣并提出了很多反馈。我想快速回顾一下功能并介绍一些改进:
企业就绪业务目录 – 要添加业务背景并使组织中的每个人都能发现数据,您可以使用自动元数据生成功能自定义目录,该功能使用机器学习自动生成数据资产的业务名称和这些资产中的列。我们还改进了元数据整理功能。在 GA,您可以将多个业务词汇表术语附加到资产,并将词汇表术语附加到资产中的各个列。
为数据用户提供自助服务 – 为了让用户自主发布和使用数据,您可以使用 API 自定义任何类型的资产并将其引入目录。数据发布者可以通过摄取作业自动发现元数据,或从 Amazon Simple Storage Service(Amazon S3)手动发布文件。数据使用者可以使用分面搜索来快速查找和理解数据。用户可以收到系统更新或要采取的操作的通知。这些事件使用 Amazon EventBridge 发送到客户的事件总线以自定义操作。
简化分析访问 – 在 GA,项目将用作基于业务用例的逻辑容器。您可以创建项目,并就基于特定业务用例的人员、数据和分析工具分组进行协作。在项目中,您可以创建为项目成员提供分析工具和存储等必要基础设施的环境,以便项目成员可以轻松生成新数据或使用他们有权访问的数据。这样用户便可根据自己的需要向同一个项目添加多种功能和分析工具。
受管控的数据共享 – 数据生产者拥有并管理数据访问权限,订阅审批工作流程允许使用者提出访问请求和数据所有者批准。现在,您可以设置订阅条款以在发布时附加到资产,自动完成 AWS 托管数据湖和 Amazon Redshift 的订阅授权,同时使用其他来源的 EventBridge 事件进行自定义。
现已推出
Amazon DataZone 现已在 11 个 AWS 区域正式推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲地区(法兰克福)、欧洲地区(爱尔兰))、欧洲地区(斯德哥尔摩)和南美洲(圣保罗)。
您可以使用 Amazon DataZone 的免费试用版,该版本包含 50 个用户,使用前 3 个日历月无需支付额外费用。免费试用从您首次在 AWS 账户中创建 Amazon DataZone 域时开始。如果您在试用期间超出每月用户数量,将按标准定价收费。
如需了解更多信息,请访问产品页面和用户指南。您可以将反馈发送至 AWS re:Post for Amazon DataZone 或通过平时的 AWS Support 联系人发送反馈。
— Channy