亚马逊AWS官方博客

Amazon DataZone 现引入端到端数据沿袭(预览版)可视化功能



Amazon DataZone 是一项数据管理服务,用于在组织中的数据生产者和使用者之间进行数据编目、发现、分析、共享和管控。借助它,工程师、数据科学家、产品经理、分析师和业务用户便有了统一的数据门户来轻松访问整个组织的数据,从中发现、使用和展开协作,获得数据驱动的洞察。

现在,我们很高兴地宣布,Amazon DataZone 引入了一项由 API 驱动且与 OpenLineage 兼容的数据沿袭功能(预览版),支持端到端跟踪数据的移动旅程。数据沿袭是 Amazon DataZone 中新推出的一项功能,可帮助用户直观查看和了解数据来源、跟踪变更管理、在报告数据错误时分析根本原因以及为解答有关数据从源头移动到目的地的问题做好准备。借助此功能,用户将能够全面了解从 Amazon DataZone 目录中自动捕获的沿袭事件,以及通过合并成数据资产在 Amazon DataZone 之外以编程方式捕获的其他事件。

在需要验证所关注的数据如何在组织中产生时,您可能会依赖手动文档或人工关联。这一手动过程非常耗时,并且可能会导致不一致,直接降低您对数据的信任。Amazon DataZone 的数据沿袭功能可帮助您了解数据的来源、转换方式以及随时间推移的使用情况,提高您的信任。例如,您可以通过编程方式设置数据沿袭,跟踪数据从在 Amazon Simple Storage Service (Amazon S3) 中被捕获为原始文件,到通过 AWS Glue 实现 ETL 转换,再到在 Amazon QuickSight 等工具中得到使用的整个旅程。

借助 Amazon DataZone 的数据沿袭功能,在映射数据资产及其关系、排查问题、建立数据管道和确立数据治理实践方面,您需要花费的时间会更少。数据沿袭可通过 API 集中收集所有沿袭信息,然后生成图形视图,帮助数据用户提高工作效率、做出更明智的数据驱动决策以及确定数据问题的根本原因。

接下来我们一起看看如何开始使用 Amazon DataZone 的数据沿袭功能。然后,我会向您展示,数据沿袭如何通过可视化显示数据资产形成过程中的关联,让您能够在搜索或使用数据资产时做出明智的决策,以此来增强 Amazon DataZone 数据目录体验。

开始使用 Amazon DataZone 数据沿袭
在预览版中,我可以首先以编程方式将沿袭信息整合到 Amazon DataZone 中,方法是使用 Amazon DataZone API 直接创建沿袭节点,或者从现有管道组件发送与 OpenLineage 兼容的事件来捕获 Amazon DataZone 之外发生的数据移动或转换。对于有关目录中资产的信息,Amazon DataZone 会自动捕获其状态(即库存或已发布状态)的沿袭及其订阅情况,供数据生产者(如数据工程师)跟踪谁在使用他们生成的数据,或者供数据使用者(如数据分析师或数据工程师)了解他们用来分析的数据是否正确无误。

信息发送后,Amazon DataZone 将开始填充沿袭模型,并将能够将通过 API 发送的标识符与已经编目的资产进行映射。随着新的沿袭信息发送,模型将开始创建新的版本,以便在给定时间开始对资产进行可视化,但同时它也允许我浏览以前的版本。

在这个用例中,我使用了预先配置的 Amazon DataZone 域。我用 Amazon DataZone 域来组织我的数据资产、用户和项目。我前往 Amazon DataZone 控制台并选择 View domains(查看域)。我选择我的域 Sales_Domain,然后选择 Open data portal(打开数据门户)。

我的域下面有五个项目:一个用于数据生产者(SalesProject),其他四个用于数据使用者(MarketingTestProjectAdCampaignProjectSocialCampaignProjectWebCampaignProject)。您可以访问 Amazon DataZone 现已正式发布 – 跨组织边界解锁数据价值,创建您自己的域和所有核心组件。

我在 Search Assets(搜索资产)栏中输入“Market Sales Table”,前往 Market Sales Table 资产的详情页面。我选择 LINEAGE(沿袭)选项卡来可视化显示带有上游和下游节点的沿袭信息。

现在,我可以深入查看资产详情、工作流程或者形成这些资产或基于这些资产的任务,以及列级沿袭。

数据沿袭的交互式可视化
我将使用经常会与 Amazon DataZone 交互且能受益于数据沿袭功能的不同角色向大家展示它的图形界面。

首先,假设我是一名市场分析师,需要确认某项数据资产的来源,以便放心地在分析中使用。我前往 MarketingTestProject 页面并选择 LINEAGE(沿袭)选项卡。我注意到沿袭既包括了 Amazon DataZone 内部的资产信息,也包括了其外部的资产信息。Cataloged(已编目)、Published(已发布)和 Access requested(已请求访问权限)标签表示目录内的操作。我展开查看了 market_sales 数据集项目,想要看看数据来自哪里。

现在,在开始分析之前,我确信了这项数据资产的来源,并相信它符合我的业务目的。

其次,假设我是一名数据工程师。我需要了解我的工作对依赖对象的影响,避免造成意外更改。作为数据工程师,我对系统所做的任何更改都不应导致任何下游流程中断。通过浏览沿袭,我可以清楚地看到谁订阅了该资产并有权访问该资产。有了这些信息,我就可以告知项目团队即将发生可能会影响其管道的变更。在有人报告数据问题时,我可以调查每个节点并遍历其各个版本,了解随着时间推移对哪些地方做出了变更,从而确定问题的根本原因并及时进行修复。

最后,作为管理员或负责人,我有责任保护数据数据、标准化业务分类法、制定数据管理流程以及负责一般性的目录管理。我需要收集有关数据源的详细信息,了解数据在整个过程中发生的转换。

例如,作为一名要回答审计师提问的管理员,我向上游遍历图表,看看数据来自哪里,发现数据来自两个不同的来源:在线销售和店内销售。在数据流至管道合并点之前,这两个来源拥有各自的管道。

在浏览沿袭图时,我可以展开列,确保在转换过程中删除敏感列,并及时向审计人员提供详细信息。

加入预览版试用
数据沿袭功能在 Amazon DataZone 已正式推出的所有区域均可使用。如需查看可预配置 Amazon DataZone 域的区域列表,请访问按区域划分的 AWS 服务

数据沿袭使用费用取决于存储使用量和 API 请求,这已经包含在 Amazon DataZone 的定价模型中。欲了解更多详情,请访问 Amazon DataZone 定价

如需详细了解 Amazon DataZone 中的数据沿袭功能,请访问 Amazon DataZone 用户指南

— Esra