什么是数据目录?

数据目录是一个组织收集和处理的所有数据的清单。法规要求组织从收集到使用的整个过程始终保护并确保其数据的安全。数据目录对数据进行整理和分类,以支持治理和数据发现。它通过情境共享提高了运营效率,因为每个人都可以快速了解组织内使用特定数据集的原因和方式。

数据目录有哪些优势?

作为一种组织工具,数据目录可以简化数据搜索和识别数据的用途。我们将在下面提供一些优势。

快速发现资产

数据目录简化了识别数据的过程,有助于提高员工的工作效率。然后,可以使用描述性标签搜索数据,以快速发现相关数据,同时了解每个数据集的情境和用途。它提供有关数据来自何处、如何在系统中移动以及如何转换的视图。  数据分析师通常可以在不严重依赖 IT 的情况下进行分析,从而更快地获得见解。

提高数据质量

数据目录需要几个字段,当公司提取新数据时,员工需要填写这些字段。当用户访问目录时,他们能够阅读数据的来源、转换过程和编辑日期,这意味着他们可以更自信地与信息交互。高度的完整性有助于降低数据治理的难度并提高数据质量。企业还可以自动生成此数据目录元数据,从而更轻松地提供全面的数据目录。 

提高效率

数据目录鼓励命名、定义和指标的一致性,确保组织内不同团队对数据的理解和使用保持一致。通过查看所有数据资产,组织可以减少数据冗余,确保工作不会重复,并且存储成本降至最低。数据科学家体验的工作效率提升也有助于降低总体成本。

增强安全性

隐私法规要求组织知道个人数据的存放位置以及谁访问这些数据。数据目录可以帮助确保正确处理敏感数据并适当授予访问权限。组织可以跟踪其数据来自何处、谁访问过数据以及如何使用数据,从而加强监管合规举措。 

数据目录有哪些使用案例?

组织可以使用数据目录来简化其存储和数据管理。以下是数据目录的一些使用案例。

自助服务分析

数据目录详细描述了包含哪些数据以及企业将其用于哪些方面。它还可让企业区分许多相似的数据,并加快与检索和使用数据有关的任何流程,尤其是在企业环境中。这种增强的透明度使用户能够快速确定他们正在查看的数据,并在一个位置发现所有必要的信息。即使存储了大量数据,您也可以为非技术数据用户创建自助分析工作流程。

知识共享

协作是从数据中获得切实可行见解的关键所在。数据目录可让用户对数据集进行评论、评分和审查,从而促进协作环境。通过分享有关特定数据集的经验和知识,用户可以共同努力降低风险并加快整个组织的分析工作。

数据沿袭分析

了解数据的来源以及数据如何遍历各种系统对于解决数据问题、进行影响分析或满足合规性标准至关重要。数据目录提供了数据沿袭的可见性,可让用户清楚地了解数据从来源到最终目的地的旅程。企业可以创建内部分类文档,使所有员工都能了解所有数据资产的正确名称。在数据目录中包含参考文档或表可以提高整个组织的数据一致性。

数据目录包含哪些信息?

数据目录包含元数据,用于描述您的数据资产清单,并提供有关数据所含内容的更多信息。元数据字段可让您快速搜索数据和定位资产。数据目录可以包含一系列元数据,例如以下示例。

业务元数据

业务元数据是与其为企业提供的价值相关的任何信息。它可能包括有关企业中数据使用的信息、监管合规性详细信息以及对其他用户有用的业务情境。例如,它可能包含数据项目注释,例如数据机密性级别、描述、位置、用户、部门等。组织通常会定义他们需要的确切业务数据,并包括几个相关字段。

技术元数据

技术元数据描述了数据集的整体结构。它描述了数据对象的结构,注释它们的关系、连接、索引、行、列和表格形式。这些元数据还为数据专业人员提供有关数据必须经历的过程(例如转换过程或分析过程)的背景信息。用户可以快速了解组织如何组织和显示信息。 

操作元数据

操作元数据注释数据的来源及其转换、更新、基数和其他过程识别标记。使用操作元数据,您可以查看数据如何进入您的组织、经历了哪些转换以及其他当前状态更新。通过操作元数据字段,您可以查看用户上次编辑数据的时间,以及谁有权编辑数据。

数据目录有哪些主要功能?

现代数据目录平台使用各种关键功能来简化其使用并提高效率。 

自动化

自动化使企业能够更轻松地管理其数据目录。集成功能可让目录自动从各种来源提取元数据。添加新数据资产或更新现有数据资产时,目录将保持最新状态。随着时间的推移,一些高级系统还利用机器学习来改进和完善其数据分类流程。尽管数据量不断增加,但数据目录中的自动化功能仍能不断增强灵活性。

高效的搜索选项

数据目录搜索功能不仅限于基本的关键字搜索,还提供建议。它们还纳入筛选条件,因此用户可以根据各种标准查找数据。用户体验类似于现代搜索引擎,提供相关、经过排名和可快速访问的结果。高效的数据检索可以节省时间,同时鼓励数据发现和探索。 

通用词汇表

通用词汇表为整个组织的术语和指标提供了标准化定义。它确保所有元数据术语都有单一、清晰的定义。当用户在目录中遇到术语时,他们可以参考词汇表了解其含义,从而确保对术语的理解和使用保持一致。这对于维护数据完整性和促进不同团队之间的清晰沟通尤其重要。

数据治理和数据目录有什么区别?

数据治理是一种确保数据处于适当状态以支持业务计划和运营的方法。​建立正确的治理意味着平衡数据访问和控制,在鼓励实验的同时,让人们对数据充满信任和信心。数据治理提供了一个框架,人们在使用企业数据和技术时可以遵循该框架。对于确保数据的高质量和在监管限制下的适当使用,数据治理可发挥重要作用。

数据目录是一种实施数据治理策略的技术。数据治理定义了数据使用策略,而数据目录则强制执行这些策略。这些目录使企业能够更有效地跟踪其数据治理。 

AWS 如何支持您的数据目录要求?

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行数据分析、机器学习(ML)和应用程序开发的工作。AWS Glue Data Catalog 是一个中央存储库,用于存储所有数据资产的结构和操作元数据。可以存储给定数据集的表定义和物理位置、添加业务相关属性以及跟踪此数据如何随着时间发生变化。

Data Catalog 还集成 Amazon AthenaAmazon EMRAmazon Redshift Spectrum。将表定义添加到 Data Catalog 后,您就可以在这些服务之间获得共同的数据视图。

AWS Glue 提供了多种将元数据填充到 Data Catalog 中的方法。例如,您可以:

  • 设置 AWS Glue 抓取程序以扫描各种数据存储,自动推断出架构和分区结构,并使用相应的表定义和统计信息来填充 Data Catalog。
  • 安排抓取程序定期运行,以便您的元数据始终处于最新状态并与底层数据保持同步。 
  • 通过使用 AWS Glue 控制台或调用 API 来手动添加和更新表详细信息。 

立即设置免费账户,开始在 AWS 上使用数据目录。

使用 AWS 的后续步骤

查看其他与产品相关的资源
了解管理和治理服务 
注册免费账户

立即享受 AWS 免费套餐。

注册 
开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录