跳至主要内容

什么是数据管理?

什么是数据管理?

数据管理是收集、存储、保护和使用组织数据的流程。组织使用其数据来支持交易处理、客户互动等运营流程,此外还需整合数据以满足商业智能、分析、人工智能和实时决策的需求。数据管理包括在法律法规范围内提高数据可用性的所有策略、工具和程序。

为什么数据管理非常重要?

数据是现代组织的宝贵资源。由于可访问的数据数量庞大且类型多样,组织在数据存储和管理基础设施方面进行了大量投资。组织借助数据管理系统来自动执行业务运营流程,并通过数据分析为业务决策提供依据。以下是数据管理的一些其他具体好处。

提升运营效率

数据管理系统可帮助组织高效处理大量交易数据和运营数据。它们可以确保交易记录的准确性和一致性,最大程度地减少财务记录、库存更新、客户账户及其他运营流程中的错误。除交易处理外,这些系统还能自动执行日常业务操作并提供可靠的记录保存,从而提供实时业务活动所需的一致性。凭借这些效率优势,数据管理系统可帮助组织提供无缝的客户体验、维护客户信任度,并确保日常流程高效且可扩展。

增加收入和利润

数据分析让您能够更深入地了解业务的各个方面。您可以根据这些见解采取行动,以优化业务运营、获得洞察力,促进更明智的决策,进而增加收入并降低成本。数据分析还可以预测决策的未来影响,从而改善决策和业务规划。因此,通过改进数据管理技术,组织可实现显著的收入增长和利润。

降低数据不一致性

交易处理中的数据不一致可能导致重复记录、账户余额错误、库存不匹配等问题,进而干扰运营、损害客户信任度并增加补救成本。数据分析中的不一致性可能是由数据孤岛造成的。

数据孤岛是组织内只有一个部门或一个小组可以访问的原始数据的集合。数据孤岛会导致不一致,从而降低数据分析结果的可靠性。数据管理解决方案能整合数据并创建集中式数据视图,以制定更明智的决策并提升部门间协作效率。

满足法规合规要求

《通用数据保护条例》(GDPR)和《加州消费者隐私法》(CCPA)等法律旨在保护客户数据。这些数据保护法规包含以下要求:

  • 数据采集需获得用户同意
  • 严格控制数据的存储位置和使用方式
  • 按要求安全存储数据并应请求删除数据

因此,组织需要一套准确且保密的数据管理系统,以保护数据安全并维护数据准确性。

什么是数据架构和数据建模?

数据架构和数据建模是成功数据管理策略的基础。

数据架构

数据架构是描述和治理组织数据的收集、管理和使用方式的总体框架。数据管理计划包括最适合实施数据管理策略的技术详情,例如运营数据库、数据湖、数据仓库和服务器。

数据建模

数据建模是创建概念数据模型和逻辑数据模型的流程,这些模型可将不同类型数据之间的工作流和关系可视化。数据建模通常先从概念上表示数据,然后再通过选择的技术表示数据。在数据设计阶段,数据专业人员会创建几种不同类型的数据模型。

数据治理与数据管理有何关系?

数据管理实践包括收集和分发高质量数据,以及通过数据治理控制数据访问权限。

数据治理包括组织为管理数据安全性、完整性和可靠的数据实用工具而实施的策略和程序。它定义数据管理策略并确定哪些人可以访问哪些数据。数据治理策略还建立了团队以及个人访问和使用数据方式的问责制。数据治理职能通常包括:

数据概要分析

数据概要分析是分析数据以确定其结构、质量和特征的诊断过程。这是了解现有数据集的第一步,用于确定数据在使用前是否需要重构。

数据血统

数据血统跟踪组织内的数据流转路径。带时间戳的数据血统用于确定数据的来源、使用方式以及转换的时间和方法。该数据管理流程在审计工作中尤为重要。

数据目录

数据目录是组织数据资产及相关元数据的集合。通过将所有数据相关信息存储在中央目录中,使其成为组织内的主要数据注册表。用户可以通过数据目录获取所有数据资产的最新信息。

数据安全性与访问控制

数据治理有助于防止未经授权的数据访问并防止数据受损。数据安全和访问控制涵盖数据保护的如下各个方面:

  • 防止意外移动或删除数据
  • 保护网络访问,从而降低网络攻击的风险
  • 验证存储数据的物理数据中心是否满足安全要求
  • 即使员工通过个人设备访问数据,也能确保数据安全
  • 用户身份验证、授权以及数据访问权限的设置和实施
  • 帮助确保存储的数据符合存储数据所在国家/地区的法律
  • 为敏感数据添加额外的控制层

数据合规性

数据合规策略可降低违规罚款或相关处罚的风险。遵守 GDPR 和 CCPA 等合规法律对运营至关重要。

合规工作侧重于数据建模、软件控制和员工培训,确保组织各层面均符合法律要求。例如,某个组织与外部开发团队协作来改进其数据系统。在将数据传递给外部团队用于测试之前,数据治理经理会验证是否已删除所有个人数据。

数据生命周期管理

数据生命周期管理是指在数据的整个生命周期对其进行管理的过程。 

例如:

  • 必须在摄取时以及按照固定间隔验证数据
  • 出于审计目的,必需在特定时间段内留存数据
  • 必须删除不再需要的数据

数据质量管理

数据用户期望数据在各使用场景下均具有足够的可靠性和一致性。

数据质量经理负责衡量并改进组织的数据质量。数据质量经理需要审查现有数据和新数据,并验证其是否符合标准。数据质量经理还可能需要设置数据管理流程,阻止低质量数据进入系统。数据质量标准通常衡量以下方面:

  • 关键信息是否丢失或数据是否完整?(例如,客户遗漏关键联系信息)
  • 数据是否符合基本数据校验规则? (例如,电话号码应该是特定的位数)
  • 同一数据在系统中多久出现一次?(例如,同一客户的重复数据条目)
  • 数据是否准确?(例如,客户输入了错误的电子邮件地址)
  • 整个系统的数据质量是否一致?(例如,出生日期在一个数据集中为 dd/mm/yyyy 格式,但在另一个数据集中为 mm/dd/yyyy 格式)

数据分发

数据分发的端点

对于大多数组织,数据必须分发到(或靠近)需要数据的各个端点。其中包括操作系统、数据湖数据仓库。由于网络延迟,数据分发是必要的。当操作用途需要数据时,网络延迟可能导致数据无法及时交付。将数据副本存储在本地数据库中可以解决网络延迟问题。

数据分发对于数据整合也是必要的。数据仓库和数据湖需要提取来自不同来源的数据,以提供信息的整合视图。数据仓库用于分析和决策,而数据湖作为集中式数据枢纽,可提取数据满足多种使用场景需求,同时越来越多地支持直接对存储其中的数据进行分析。

数据复制机制及其对一致性的影响

数据分发机制对数据一致性有潜在影响,这是数据管理中的一个重要考虑因素。

数据的同步复制可达成强大的一致性。在这种方法中,当数据值更改时,所有应用程序和用户都可以看到更改后的数据值。如果尚未复制数据的新值,则在更新所有副本之前,将阻止对数据的访问。同步复制将优先保障一致性,而非性能和数据访问效率。同步复制常用于财务数据。

数据的异步复制可实现最终一致性。当数据更改时,最终会更新副本(通常在几秒钟内),但不会阻止对过期副本的访问。对于许多使用案例,这不是一个问题。例如,社交媒体帖子、点赞和评论不需要很强的一致性。另一个例子是,如果客户在一个应用程序中更改了电话号码,则此更改可以异步级联。

流式传输与批量更新的比较

数据流在发生数据更改时级联数据更改。如果需要访问近实时数据,这是首选方法。数据一经更改,就被提取、转换并传递到其目的地。

如果数据必须在交付前批量处理,则批量更新更为合适。汇总或执行数据的统计分析并仅提供结果就是一个很好的例子。如果在特定时间点提取所有数据,则批量更新还可以保持数据的时间点内部一致性。通过提取、转换、加载(ETL 或 ELT)过程进行的批量更新通常用于数据湖、数据仓库和分析。

主数据管理

主数据管理是管理基本业务数据的一致性和同步性的过程。主数据的示例包括客户数据、合作伙伴数据和产品数据。这些核心数据通常具有持久性,不常发生变化。此类数据的应用示例包括客户关系管理(CRM)和企业资源规划(ERP)软件。

主数据管理对于确保各系统间数据准确性至关重要,包括数据更新时的同步和集成。

什么是大数据管理?

大数据是指组织在短时间内高速收集的大量数据。社交媒体上的视频新闻订阅和来自智能传感器的数据流即是大数据的例子。运营的规模、多样性和复杂性为大数据管理带来了挑战。例如,大数据系统存储以下数据:

  • 适合以表格形式呈现的结构化数据
  • 文档、图像和视频等非结构化数据
  • 结合前两种类型的半结构化数据

大数据管理工具必须处理和准备用于分析的数据。大数据所需的工具和技术通常执行以下功能:数据集成、数据存储和数据分析。

什么是云数据管理系统?

云数据管理(CDM)指对云端处于静态、处理中和传输中的企业数据进行管理。传统数据管理的许多做法同样适用于云端数据管理。

由于云环境与标准本地环境存在差异,因此数据处理方式也略有不同。云存储、云计算和云网络与现代云数据管理服务协同工作,以满足数据管理需求。

云存储

云服务提供商通过多种产品和服务(如运营数据库、数据湖和云数据仓库)提供数据存储。这些数据存储解决方案是云原生的,在云实例上运行,并提供虚拟化存储配置以适配各类使用场景。必须将云存储实例配置为符合数据标准。

云计算

云计算实例专为处理存储在云端的数据而设计。这些计算实例提供多种配置,分别适配各类略有不同的工作负载,如事务处理、流程自动化、商业智能、分析、机器学习和人工智能。云计算实例必须根据云数据管理的内部规则进行配置。

云联网

虚拟私有云(VPC)和虚拟专用网络(VPN)等云网络解决方案提供基于软件的网络服务。云网络通过资源分段实现隔离,确保工作负载彼此安全分离,并更好地防范未经授权的访问。通过这些网络传输的数据必须结合产品控制和网络安全产品进行管理。

云数据管理工具

每个云服务提供商为其环境提供不同的云数据管理解决方案。这些数据管理功能可能包括:

  • 数据统一服务,如数据湖和数据仓库
  • 数据安全服务,如合规性管理
  • 数据质量服务,用于检查数据的有效性和高质量
  • 数据清单解决方案,利用人工智能和机器学习识别敏感数据

每种云数据管理解决方案都旨在补充云端提供的基础数据存储、处理和传输服务。

责任共担模式

安全性和合规性是云服务提供商和客户共同的责任。AWS 将这种模式称为责任共担模式。 

这种共担模式可以减轻客户的运营负担,因为从主机操作系统和虚拟层到服务运营所在设施的物理安全性,各种组件都由云服务提供商负责运行、管理和控制。云数据管理服务提供商和客户必须明确该模式下各自的数据管理和安全责任。

例如,云服务提供商必须采取措施来保护支持客户云实例的底层基础设施。云服务提供商需要确保硬件已安装必要补丁并按预期运行。然后,客户必须确保实例上运行的操作系统是最新的。

客户还需确保跨可用区的实例复制和数据备份达到足够水平。这有助于保持数据一致性,并确保数据在发生灾难恢复事件时可以检索。

数据管理面临哪些挑战?

以下是数据管理面临的常见挑战。

规模与性能

组织需要能够大规模高效运行的数据管理软件。他们必须持续监控和重新配置数据管理基础设施,确保在数据呈指数级增长时维持峰值响应时间。或者,必须使用能根据数据量和工作负载的变化自动调整容量的无服务器数据管理软件。

不断变化的要求

合规性法规不仅非常复杂,而且会随时间不断变化。同样,客户要求和企业需求也在快速变化。组织可选择的数据管理平台较多,但必须持续评估基础设施决策,以维持最高的 IT 敏捷性、法律合规性和更低的成本。

员工培训

在任何组织中启动数据管理流程都具有挑战性。海量数据可能让人无从下手,并且可能存在部门间孤岛。规划新的数据管理策略并使员工接受新的系统和流程耗时耗力。

数据管理有哪些最佳实践?

数据管理最佳实践是数据策略获得成功的基石。以下是常见的数据管理原则,可帮助你构建坚实的数据基础。

团队协作

企业用户和技术团队必须协作,以帮助确保满足组织的数据要求。

自动化

成功的数据管理策略会将自动化整合到大多数数据处理和准备任务中。手动执行数据转换任务不仅乏味,而且会在系统中引入错误。即使是数量有限的手动任务(例如每周运行批处理任务)也可能导致出现系统瓶颈。数据管理软件可以支持更快速、更高效的扩展。

云计算

企业需要现代化的数据管理解决方案,以为其提供广泛的功能。云解决方案可以大规模管理数据管理的各个方面,而且不会影响性能。例如,AWS 在单个账户中提供各种功能,例如数据库、数据湖、分析、数据可访问性、数据治理和安全性。

AWS 如何为数据管理提供帮助?

AWS 是一个全球数据管理平台,您可以使用它来构建现代云数据管理策略。AWS 数据库为生成式人工智能解决方案和数据驱动型应用程序提供高性能、安全且可靠的基础,从而为您的业务和客户创造价值。AWS 高性能数据库支持任何工作负载或使用案例,包括吞吐速度比其他数据库快 3 到 5 倍的关系数据库、具有微秒级延迟的专用数据库,以及吞吐速度最快、召回率最高的内置向量数据库功能。

AWS 提供无服务器选项,支持即时按需扩展,无需管理容量。AWS 数据库利用静态加密和传输中加密、网络隔离、身份验证和异常解决功能提供极高的安全性,并且严格遵守合规性标准。它们极其可靠,原因在于数据会自动复制到 AWS 区域内的多个可用区。AWS 完全托管的数据库借助针对应用程序的数据模型进行了优化的 15 个以上数据库引擎,从而消除数据库管理任务千篇一律的繁重工作。

AWS 为各种分析工作负载提供全面的功能支持。从数据处理和 SQL 分析到流式传输、搜索和商业智能,AWS 通过内置治理功能提供无与伦比的性价比和可扩展性。选择针对特定工作负载进行了优化的专门服务,或者使用 Amazon SageMaker 简化和管理您的数据和人工智能工作流程。无论您是开始数据之旅还是寻求综合体验,AWS 都能为您提供合适的分析功能,帮助您利用数据重塑业务。

以下是一些可帮助构建现代化云数据基础设施的服务。

Amazon DataZone 是一项数据管理服务,可让客户更快、更轻松地对存储在 AWS、本地和第三方来源的数据进行分类、发现、共享和治理。

AWS Glue 是一项无服务器服务,能够让数据集成变得更简单、更快速、更便宜。您可以发现并连接到 100 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控数据管道,进而将数据加载到数据湖、数据仓库和湖仓中。

Amazon Simple Storage Service(Amazon S3)是一项对象存储服务,具备行业领先的可扩展性、数据可用性、安全性和性能。数百万不同规模和行业的客户可以为几乎任何使用案例存储、管理、分析和保护任意数量的数据,例如数据湖、云原生应用程序和移动应用程序。

AWS Lake Formation 让您可以集中管理、保护和共享用于分析和机器学习的数据。AWS Lake Formation 可帮助您集中管理和扩展精细的数据访问权限,并在组织内外充满信心地共享数据。

Amazon Relational Database Service(Amazon RDS)是一种易于管理的关系数据库服务,针对总拥有成本进行了优化。

Amazon Virtual Private Cloud(Amazon VPC)可帮助您在逻辑隔离的虚拟网络中定义和部署 AWS 资源。

立即创建 AWS 账户,开始在 AWS 上构建您的云数据管理解决方案。