亚马逊AWS官方博客

企业智能之旅(4): 智能企业为生成式 AI 做好数据准备

在数字经济时代,数据是企业数字化转型和生成式 AI 技术创新的战略制高点,数据能力驱动了生成式 AI 的发展,AI 也根本改变了数据的分析应用。 最近对企业首席数字官的一份调研中,93% 受访者认为拥有实用的数据战略管理好数据是企业生成式 AI 成功的关键,46% 受访者认为数据是妨碍他们成功的主要很困难和障碍,而 57% 受访者坦诚还没有建立好有关的数据战略。

如果把生成式 AI 应用比喻成在数据海洋上漂流的冰山的漂浮在水上的一角,那么企业数据架构和数据积累则是这座冰山藏在水下的巨大冰体。 企业数据的全面多样、一致准确、和安全可靠是智能企业生成式 AI 项目成功的关键。 企业需要制定企业的数据战略,构建数据驱动的文化,建立与之相适应的企业组织机构,构建现代的数据架构,采用现代的数据管理工具,做好数据安全隐私合规相关的数据治理。关于如何有效地为生成式 AI 做好数据准备工作,我们做以下概述介绍,供您参考。

1. 数据是企业的血液,数据为企业带来敏捷和效率

数据是企业重要的资产,分析型数据是企业运维的关键,帮助企业了解企业的现状和问题,预测性数据则为企业带来预测力和洞察力,帮助企业决策以掌控动态和方向。数据也是企业重要的负债,存储管理数据为企业带来成本支出,而数据安全隐私合规也为企业带来责任和负担。企业管理好数据,利用数据做更好的决策,能更好掌握市场动态和趋势,改善客户体验,发现新的成长机会,提高业务运营效率。

关于数据的重要性有不少有趣的比喻。 有人说数据是企业的“原油”,“黄金”,“牛奶”或“美酒”,也有人把数据看作“洪水“。这些比喻从不同方面阐述了数据的重要特性。我喜欢把数据看做企业的“血液”, 而企业的数据流就是企业的血液流。企业数据管理水平高,企业就能更加健康、敏捷、高效。 把数据作为资产转化为产品,可以为企业带来巨大的价值。

2. 建立数据驱动的企业文化,增强数据文化水平

企业数据驱动的文化意味着企业将数据作为企业重要的战略资产,让数据在企业中容易获取并广泛使用,利用数据进行业务管理和决策。企业领导团队要带头以数据来决策,打破部门间的数据壁垒,鼓励所有人员用数据来指导行动,移除有效使用数据的障碍。 企业要建立数据是战略资产的观念,建立机构指定专人负责数据的流通和治理,将数据开发为产品并为企业一线工作人员广泛使用。 企业要建立数据相关的统一的语汇,培养教育员工提高数据水平(data literacy),掌握获取数据的渠道,学会使用各种数据工具。 领导要不满足于利用数据形成的简单结论,而是利用数据提出分析问题,通过探索和实验获得答案和洞察。

3. 搭建数字现代基础架构:数据湖与数据网

生成式 AI 对企业的数据平台和管理提出了新的更高的要求。 企业需要搭建一个强力的数据基础架构以实现数据的价值,并为生成式 AI 打下坚实的基础。这个数据基础架构要打破部门间的数据孤岛和壁垒,跨企业存储组织数据,保证数据质量,管理元数据,提供数据目录分类,支持数据抽取查询, 维护数据隐私安全合规。

亚马逊云科技提供数据存储、数据库、数据仓库、数据分析、数据展示等全方位的云原生和无服务器的数据云服务。亚马逊云原生数据战略通过“云原生数据基础架构”、“数据联通一体化融合”、“智能驱动的数据应用创新”三个支柱与“数据治理与数据安全”一个基石,帮助企业治理好数据。企业通过“智能湖仓”和“数据网格”架构,将数据库、仓、湖连接成为一个数据网,实现零 ETL 的数据联通和部署,通过数据分析和 AI 服务构建现代企业应用。

4. 为生成式 AI 做好专门的能力提升和数据准备

生成式 AI 所利用的非结构化的数据需要准确,新鲜、独特、全面的高质量数据。在生成式 AI 的流程里,选定的海量数据通过标注和预处理,用来进行对基础模型的训练,随后用来对模型精调和持续训练,然后作为输入通过模型推理,成为生成式 AI 应用的输出。 数据和 AI 耦合成双飞轮,形成数据到模型到应用的生成式 AI 服务端到端的智能数据应用。为生成式 AI 做好数据工作,企业需要掌握下面 7 个方面的能力:数据的收集和存储,数据清洗,数据整合集成,数据标注和分类,数据版本控制,数据世系溯源,数据流程运营,和数据生命周期管理。

为生成式 AI 做好数据准备,企业特别需要在数据架构中构建特定功能支持最广泛的用例集,聚焦数据生命周期的关键点,确保高质量的数据,定义数据采集、管理、注释和维护的角色、职责和流程,使用生成式 AI 帮助企业管理自己的数据。其中一些值得专门指出的点包括:(1)策划建立反映不同观点的数据集,(2)通过启用而不是通过限制来治理数据,(3)把数据作为有价值的产品,(4)提升数据透明度和可用范围,(5)文档应该赋能而不是穷于应付,(6)尊重用户隐私、授权和保密权。

5. 提高数据质量,确保生成式 AI 应用的高质量输入输出

数据质量对生成式 AI 的决定性作用如何强调都不过分,低质量的数据带来额外的成本和风险,产生低质量的模型和结果,造成高成本的修复,失去用户的信任,产生网络安全漏洞。传统的数据质量管理已经不够,我们建议通过以下一些特别的措施改进和扩展所需的数据:(1)获取更多种类和更加准确的原数据, 特别是各种非结构化的数据;(2)当缺少所需数据时,用数据合成的方法人工产生数据用来建模和测试;(3)用人工智能技术加速形成端到端的可重复的规模使用的数据产品;(4)更好地通过关联和协同来管理数据, 保持数据的一致性;(5)通过云平台迁移构建现代化的数据架构;(6)制定统一的数据安全标准,在数据流程中的每一步加强数据安全管理。

6. 使用生成式 AI 提升数据管理应用水平

生成式 AI 带来了数据应用的范式转移,重塑了数据分析行业,使具有不同技术背景的数据分析师能够高效地执行数据处理任务。许多生成式 AI 有关的算法、模型和工具原本就是为更好的数据分析而发展起来的,无疑它们将会被更广泛深入地被用于数据的实时和预测分析。生成式 AI 可以用来做数据的标注和预处理,生成分析所需的数据,自动化数据的分析,强化数据的语义分析,将数据转化成文字、图像、视频等多模态。人工智能通过自动生成样板代码和促进数据从源到目标的无缝移动,和生成的自动化模式和自定义代码的协同作用,标志着数据处理的飞跃,在数据工程中发挥着关键作用。

使用生成式 AI 增强数字管理应用的水平,可以在下述几个方面做出努力:(1)广泛利用生成式 AI 挖掘所有数据以获取最大的价值;(2)除了培训模型以外,利用大模型的语言语义模型工具,尽可能加强对数据的学习和理解;(3)利用 AI 尽量自动化规模化进行更多的数据工作;(3)让数据工作人员有时间结合业务做更多的独立的创造性的分析和思考;(4)综合统筹数据和人工智能资源,做好人员新技能的获得和再培训。

智能之旅是我们这一代企业经营者和员工的的使命,而构建企业数据的核心能力需要企业领导团队的持续努力和不断实践。 通过制定和加速企业的数据战略,构建数据驱动的文化,建立与之相适应的企业组织机构,采用现代的数据技术建立现代的数据架构,并做好数据安全隐私合规相关的数据治理,企业将能通过生成式 AI 的加持,有效通过数字化转型创新,用数据帮助企业成长和创造价值。其中的三大关键点是高质量的数据、好的模型与工具,和数据的安全隐私主权的治理管控。

本篇作者