什么是数据治理?
数据治理包括一系列程序和政策,用于确保数据处于适当状态,以支持业务举措和运营。现代组织会从各种来源大规模收集数据,以优化运营和服务交付。然而,只有当数据满足所需的质量和完整性标准时,数据驱动型决策才会有效。
数据治理明确了数据使用的角色、责任和标准。它概述了哪些人可以对哪些数据采取何种行动、使用何种方法以及在何种情况下采取行动。随着越来越多的数据被用于支持人工智能(AI)和机器学习(ML)应用场景,确保所有数据使用均符合监管和道德要求已变得至关重要。数据治理需要在数据安全与战术及战略目标之间寻求平衡,以确保取得最大成效。
什么是分析治理?
分析治理既要治理用于分析应用程序的数据,也要治理分析系统的使用。您的分析治理团队可以建立治理机制,例如分析报告版本控制和文档。与往常一样,跟踪监管要求、制定公司政策,并为更广泛的组织提供防护机制。
为什么数据治理很重要?
过去,人们一直通过数据治理计划来将数据锁定在孤岛中,以防止数据泄露或滥用。但是,数据孤岛的后果是,合法用户必须克服障碍才能在需要时访问数据。数据驱动的创新被无意中扼杀了。
麻省理工学院 CDOIQ 在 2024 年对 350 个 CDO 和 CDO 同等职位的调查中发现,45% 的首席数据官将数据治理视为重中之重。这些数据领导者希望建立一个数据治理框架,使他们能够根据需要向合适的人员和应用程序提供数据,同时通过适当的控制措施来保持数据的安全性。
平衡访问和控制
要使治理成为创新的推动力,需要两个杠杆:访问权限和控制力。成功的关键在于在这两者之间找到适当的平衡,而每个组织的平衡点各不相同。当您行使过多的控制力时,数据就会被锁定在孤岛中,导致用户无法在需要时访问数据。这会扼杀创造力,并导致影子 IT 系统的创建,使数据过时且不安全。相反,当您提供过多的访问权限时,应用程序和数据存储中的数据可能会变得不受监管,从而增加未经授权访问的风险并影响数据质量。
数据治理流程在访问权限和控制力之间寻求平衡,让用户对数据产生信任和信心。它们促进适当的发现、整理、保护和数据共享,在鼓励创新的同时保障数据的安全。
数据治理有哪些优点?
数据治理为组织内的数据管理提供了一个结构化的框架。以下是数据治理的一些主要益处。
提高了数据质量
数据治理为数据的准确性、完整性和一致性制定了标准。它提供了相关、最新且易于解释的数据,这些数据受到所有利益相关者的信赖。这种高质量的数据可以减少错误,并为战略和运营决策提供准确、及时的见解。
支持数据驱动的文化
有效的数据治理策略能够培养一种重视数据的文化,鼓励所有员工在工作中使用和理解数据。它激励业务部门参与,并推动参与业务领域的数据整合。数据工程师与业务用户之间的协同合作可以提升组织整体的数据素养和分析能力。
提高运营效率
数据治理有助于确定合适的运营模式,特别是所需的集中化和分散化程度。可以通过建立一致的数据管理实践来简化运营。明确的数据所有权和访问权限可促进跨部门的协作,确保每个人都使用相同且可靠的数据来源。协调团队工作以减少重复、降低运营成本并提高生产力。
支持合规性
数据治理框架采取主动的风险管理方法,确保数据实践符合法律和行业规定。通过集中制定明确谁可以访问或修改数据的策略,防止未经授权的访问。数据治理工具支持遵守隐私法规,以保护敏感数据。
什么是机器学习(ML)治理?
机器学习治理将许多相同的数据治理实践应用于机器学习。数据质量和数据集成需要提供模型训练和生产部署所需的数据(特征存放区是其中的一个重要方面)。负责任的人工智能(AI)特别关注使用敏感数据来构建模型。其他 ML 治理功能包括让人们能够参与模型构建、部署和监控;记录模型训练、版本控制、支持的用例和指导道德模型的使用;以及在生产中监控模型的准确性、偏差、过拟合和欠拟合。
生成式人工智能需要额外的数据治理功能,例如数据的质量和完整性,以支持调整根基模型进行训练和推理、生成式人工智能毒性和偏差的治理,以及根基模型(FM)操作:FMOps。
您可以使用相同的数据治理程序来支持 AI/ML。数据准备对于将数据转换为可供 AI/ML 模型用于训练和生产推断的形式是必要的,但最有效的数据准备其实并不需要您动手。数据科学家花费太多时间为每个用例准备数据,您的数据治理团队可以帮助减轻这种无差别的繁重工作。此外,数据治理可以监督精心打造的、用于 AI 和 ML 应用场景的特征存放区的创建。
最后,需要适当保护敏感数据,这样您的团队才能降低使用敏感数据训练根基模型的风险。
就像常规分析一样,您必须管理自己构建或自定义的 AI/ML 模型的使用。理想情况下,这应该与分析治理密切相关,因为该职能部门将知道如何支持各个业务领域。
谁负责建立数据治理?
构建一个健全的数据治理战略需要多个职能部门的共同努力。
执行发起人
他们负责确定和制定整个组织范围内的数据治理原则、标准和政策。他们还了解公司路线图上的许多业务计划,并能协助确定推动数据治理活动的优先事项。
数据管理员
他们来自业务部门,参与项目的日常细节工作。他们可以帮助您了解可能给有针对性的业务计划带来挑战的数据问题。他们还在自己的项目中实施数据治理流程,确保数据得到妥善管理。他们负责监控员工和客户的合规情况,并在出现问题时上报。
数据所有者
他们负责制定有关数据的策略,包括谁有权访问数据、在什么情况下可以访问、如何解释和应用法规以及关键术语的定义。他们还负责数据集的技术管理和访问控制。
数据工程师
他们来自 IT 部门,负责选择和实施最佳的数据治理工具,以确保数据安全、整合来自不同来源的数据、管理数据质量并找到所需数据。
什么是数据治理风格?
您的数据治理计划应在集中化和去中心化(包括自助服务)之间取得平衡。在整个组织中,您将组合使用集中治理、联合治理和去中心化治理,这同样取决于业务需求。在保持跨领域一致性(如将数据连接在一起的能力)的同时,应尽可能增强领域团队的能力。
集中数据治理
中心组织对任务说明、政策、工具选择等负有最终责任。但是,日常工作常常被推给业务部门(LOB)。
联合数据治理
联合数据治理使各个业务部门或计划能够以最符合其需求的方式运营。然而,规模较小的集中式团队专注于解决经常重复出现的问题,例如企业范围的数据质量工具。
自助式或分散式数据治理
每个部门按照集中政策,针对具体项目开展各自需要的工作。每个项目都会使用其他项目中适合使用的任何工具或流程。随着数据网格(本身是去中心化的)之类的话题越来越受欢迎,自助式数据治理也越来越受欢迎。
数据治理如何运作?
数据治理需要各种能力水平的人员、流程和技术解决方案。
大规模整理数据,限制数据蔓延
大规模整理数据意味着识别和管理最有价值的数据来源,包括数据库、数据湖和 数据仓库。这样,您就可以限制关键数据资产的激增和转换。整理数据还意味着确保正确的数据准确、最新且不包含敏感信息,让用户对数据驱动的决策和数据馈送应用程序充满信心。
功能:数据质量管理、数据集成和主数据管理
在上下文中发现和理解您的数据。
在上下文中了解您的数据意味着所有用户都可以发现和理解其数据的含义,这样他们就可以放心地使用数据来推动业务价值。通过集中式数据目录,可以轻松找到数据,可以请求访问权限,还可以使用数据来做出业务决策。
功能:数据分析、数据沿袭和数据目录
保护并安全地共享您的数据,确保可控性和可信度。
保护您的数据意味着在数据隐私、安全性和访问权限之间取得适当的平衡。使用对业务和工程用户都很直观的工具来管理跨组织界限的数据访问至关重要。
功能:数据生命周期、数据合规性和数据安全
降低业务风险并提高监管合规性。
降低风险意味着了解这些数据是如何使用的,以及由谁使用。AWS 服务可帮助您监控和审核数据访问(包括通过机器学习模型进行的访问),以帮助确保数据安全性和监管合规性。机器学习还需要审核透明度,以确保负责任的使用和简化的报告。
功能:数据和 ML 的使用情况审核
如何让您的数据治理团队变得更好?
有效的数据治理计划的关键在于将其附加到已经获得资金的业务计划。确保您的团队了解需要哪些数据域、数据来源和元素来支持这些计划。
什么是数据治理最佳实践?
有效数据治理的关键在于将其附加到已经获得资金的业务计划。确保您的团队了解需要哪些数据域、数据来源和元素来支持这些计划。
数据治理如何影响分析、机器学习和人工智能?
数据治理在数据密集型应用场景中起着关键作用。
分析治理
分析治理既要治理用于分析应用程序的数据,也要治理分析系统的使用。您的分析治理团队可以建立治理机制,例如分析报告版本控制和文档。与往常一样,跟踪监管要求、制定公司政策,并为更广泛的组织提供防护机制。
AI 治理
AI 治理将许多相同的数据治理实践应用于 AI/机器学习。数据质量和集成必须提供模型训练和生产部署所需的数据(特征存放区是其中的一个重要方面)。负责任的人工智能(AI)特别关注使用敏感数据来构建模型。其他 AI 治理功能包括让人们能够参与模型构建、部署和监控;记录模型训练、版本控制、支持的用例和指导道德模型的使用;以及在生产中监控模型的准确性、偏差、过拟合和欠拟合。
生成式人工智能需要额外的数据治理功能,例如数据质量和完整性,以支持调整基础模型进行训练和推理、生成式人工智能毒性和偏差的治理,以及基础模型(FM)操作:FMOps。
您可以使用相同的数据治理程序来支持 AI/ML。数据准备对于将数据转换为可供 AI/ML 模型用于训练和生产推断的形式是必要的,但最有效的数据准备其实并不需要您动手。数据科学家花费太多时间为每个用例准备数据,您的数据治理团队可以帮助减轻这种无差别的繁重工作。此外,数据治理可以监督针对 AI 和 ML 应用场景精心打造的特征存放区的创建。
最后,必须适当保护敏感数据,这样您的团队才能降低使用敏感数据训练基础模型的风险。
就像分析一样,您必须管理自己构建或自定义的 AI/ML 模型的使用。理想情况下,这应该与分析治理密切相关,因为该职能部门将知道如何支持各个业务领域。
数据治理的主要挑战是什么?
数据治理最常见的战略挑战是使您的计划与业务计划保持一致,而不是直接主张数据治理的价值。例如,您可能会主张让最终用户更容易找到他们正在寻找的数据的价值,或者可能会主张解决数据质量问题的价值。但是,这些都是寻找问题的解决方案。如果您这样做,最终将与应该支持的商业计划争夺资金和赞助。相反,您应该将数据治理定位为支持业务计划。每项重大业务计划都需要数据。数据治理应确保数据处于适当的状态,以支持业务计划取得成功。不要忽视报告和审核实践,了解数据治理如何支持这些计划。
另一个常见战略挑战是避免过于狭隘地应用数据治理。“过于狭隘”可能是指将计划与个别业务领域或应用场景保持一致,而没有跨业务领域拓宽视野。“狭隘”也可能表示仅通过一两种功能来定义数据治理。例如,拥有数据目录并不构成数据治理计划。
AWS 提供了哪些适用于数据治理的产品/服务?
借助 AWS 上的端到端数据管理,组织可以控制其数据的位置、谁有权访问数据,以及在数据工作流程的每个步骤中可以用数据来做什么。使用 AWS 进行数据治理可以让合适的人员和应用程序在需要时轻松安全地查找、访问和共享正确的数据,从而帮助组织加快数据驱动型决策。您可以通过自动化数据集成和数据质量来管理数据,从而限制数据的扩散。您可以通过集中式目录来发现和理解您的数据,从而提高数据素养。您可以通过精确的权限来保护您的数据,从而放心地共享数据。
您可以通过监控和审核数据访问来降低风险并提高合规性。
- Amazon DataZone — 借助内置治理功能,跨组织边界解锁数据
- AWS Glue — 发现、准备和集成任意规模的数据
- AWS Lake Formation — 在几天内构建数据湖并进行管理和保护
- Amazon QuickSight 超大规模的商业智能整合
- Amazon SageMaker — 通过完全托管的基础设施、工具和工作流程,为应用场景构建、训练和部署机器学习模型
- ML 治理 Web 页面
- Amazon Bedrock — 使用基础模型(FM)构建和扩展生成式人工智能应用程序的最简单方法
- Amazon Macie — 大规模发现和保护敏感数据
- Amazon Simple Storage Service(Amazon S3)接入点 — 专为从任意位置检索任意数量的数据而构建的对象存储
- AWS Data Exchange — 轻松查找、订阅和使用云端的第三方数据
- AWS Clean Rooms — 在几分钟内创建洁净室,无需共享原始数据即可与合作伙伴协作
立即创建免费账户,开始使用 AWS 上的数据治理。