Amazon DataZone:自动发现数据

概览

省去在数据目录中手动输入数据属性的时间,避免引入可能的错误。生成业务背景并推荐数据集分析,从而提高数据发现结果。另外,在业务数据目录中增加更丰富的数据也将改善搜索体验。将搜索和使用数据的时间从数周缩短到几天。

Page Topics

主要功能

主要功能

Amazon DataZone 业务数据目录将充当联合组织注册中心,您可以在其中将技术元数据发布为资产,也可以添加丰富的业务环境。您可以开放具有业务环境的数据的可见性,让所有用户都能快速而轻松地查找、理解和信任数据。

自动将业务描述和名称添加到数据中,这有助于您轻松理解环境,并免于应对晦涩的技术名称。该自动化功能由大型语言模型(LLM)驱动,可提高准确性和一致性。 

分面搜索基于业务数据目录运作,可帮助数据消费者和生产者使用熟悉的结构信息(例如表名、列名,以及业务术语)查找数据资产。

为每个数据集生成一份列出最有价值的列和可能的分析用途的列表。 

借助 Amazon DataZone 中的数据质量统计数据,数据使用者可以查看来自 AWS Glue 数据质量自动监测功能或第三方系统的数据质量指标。数据使用者可以信任他们用于决策的数据来源,并在搜索资产时了解数据质量背景。生产者和 IT 团队还可以使用 API,将来自第三方系统的数据质量统计数据整合到控制台之外统一的门户中。数据生产者可以按计划提取 AWS Glue 数据质量自动监测功能提供的结果,确保即使数据持续变化,分数也是最新的。

使用案例

通过在正确的环境中找到正确的数据,缩短获取见解的时间。仅当数据一致、准确、完整、适时、可追溯且具有透明的数据质量分数时,该数据才是可信的。通过分布式的所有权,每个部门或分析团队都可以维护资产的保真度,让数据消费者知道自己正在使用正确的数据。

通过爬取您的资产并引入技术元数据(而非实际数据),以丰富业务环境,从而构建业务数据目录。使用标准化的词汇表和术语可以丰富业务环境。您还可以通过元数据表单自定义其他元数据。

需要了解数据环境才能使用正确的数据。Amazon DataZone 可帮助您为使用词汇表和元数据表单编目的所有数据构建环境。现在,数据所有者可以共享尽可能多的信息,为数据消费者设置数据环境,以便其查找、理解和订阅数据。数据质量分数可帮助数据使用者了解数据资产是否符合用途。

视频

AWS re:Invent 2023 — 如何使用 Amazon DataZone 构建业务目录(21:37)
AWS re:Invent 2023 — 了解您的数据和业务上下文(55:40)

常见问题

Amazon DataZone 业务数据目录中使用了何种信息?

在 Amazon DataZone 业务数据目录中,业务元数据提供由业务人员编写或使用的信息,并为组织数据提供环境。这可能包括以下信息:

  • 所有权:以数据为中心的现代组织采用分布式数据管理流程,其中业务线(LOB)负责管理自己的数据。目录会跟踪所有权,以便感兴趣的各方可以查找并请求访问数据,作为其业务任务的一部分。
  • 分类:数据发现是业务元数据可以支持的一项关键任务。数据发现使用集中定义的企业本体和分类法对数据来源进行分类,有助于您找到相关的数据对象。
  • 关系:您可以使用 Amazon DataZone 业务数据目录将关系信息添加为元数据。与技术数据集架构一样,业务数据目录显示目录中对象之间的关系,例如数据库、数据集及其列之间的关系。
  • 架构:AI 对于描述的建议可以使用技术和业务架构来生成推荐的描述和数据使用。

我可以使用 Amazon DataZone 编目什么?

Amazon DataZone 支持直接从 AWS Glue Data Catalog 和 Amazon Redshift 发布的数据资产。这两个源可用于对以下位置的数据进行编目:

  • Amazon Simple Storage Service(Amazon S3)数据湖
  • 多种 AWS 专用数据库,例如通过 AWS Glue 爬网程序建立的 Amazon Relational Database Service(Amazon RDS)
  • 超过 100 种 Amazon AppFlow 连接器,用于从 Snowflake、Salesforce 和 Google Analytics 等第三方应用程序导入数据