跳至主要内容

AWS 高管洞见

聚合、管理、扩展:如何构建企业数据基础

在本集中…

我们采访 AWS 技术副总裁 Mai-Lan Tomsen Bukovec,其揭示企业数据管理的三种变革性方法:聚合、管理和扩展。凭借在领导 AWS 数据服务方面积累的丰富经验,Mai-Lan 分享了组织如何构建灵活、可扩展的数据基础,以同时实现创新和治理。加入 Mai-Lan,与 AWS 企业战略分析师 Tom Soderstrom 共同讨论数据基础设施现代化的复杂性。二人共同探索如何让现代数据基础设施在应对快速技术变革的同时,确保安全性和合规性。本次重要讨论为领导者提供数据驱动型业务转型的实用见解,涵盖从整合数据所有权到实施可适应不断变化的业务需求的战略性数据平台现代化。

立即观看

对话记录

由 AWS 技术副总裁 Mai-Lan Tomsen Bukovec 和 AWS 企业战略分析师 Tom Soderstrom 主讲

Tom Soderstrom:
我是 Tom Soderstrom。我是 AWS 企业战略分析师,本节目由 AWS 主办,我们与企业高管进行对话。

今天,很荣幸能与 Mai-Lan Tomsen Bukovec 进行对话,这位既是技术领导者,也是人才领导者。

尤其值得关注的是,您在数据和分析这一快速发展的领域中担任领导角色。作为技术副总裁,您主要关注哪些方面?

Mai-Lan Tomsen Bukovec:
Tom,很高兴能来到这里。感谢您的邀请。

正如 Tom 所说,我负责运行 AWS 服务,这些服务基本上涵盖整个数据堆栈。如果考虑的是数据堆栈的底层,也就是存储层,包括 Amazon S3 和文件系统,以及 Amazon Redshift 等其他分析服务,然后是这些服务之间的流处理能力。我自 2010 年起就在 AWS 工作,转眼间已过去很久了。

Tom Soderstrom:
很好。如今,客户成千上万,这是相当大的数据。我查阅了一些统计数据,正如您所知,从 2015 年到 2024 年,这一数字增长了 800%。

目前已达 138 ZB。谁会想到我们对 ZB 如此习以为常? 到 2028 年,这一数字将增长至 400 ZB 。

当您回顾 AWS 的历史以及数据的发展历程时,或许可以探讨到 2030 年左右的一些主要趋势。

Mai-Lan Tomsen Bukovec:
没错。这非常有趣。我的意思是,Tom,如果您还记得我们曾在 2010 年或是 2012 年左右讨论过关于数据的话题,当时很多人都在谈论“数据爆炸”,也就是您所说的全球数据呈指数级增长的现象。

但我认为大家不再谈论这一问题,因为这实际上已经成为新的常态。这些快速的数据增长率由传感器到消费者行为等各种因素所驱动。我认为,全球的数据战略专家已经不再纠结于“面对数据爆炸式增长,我们该如何应对?”这一问题,而是更多地关注“如何以正确的方式利用这些数据”。

如果我们回顾一下当前分析、人工智能和数据转型的演进历程,其实这一切始于几年前。如果我们回溯到 2006 年,那正是 Amazon S3 的推出,这是首个改变数据存储经济模式的 AWS 服务,正是因为云存储,我们才能如此有效地管理数据增长,因为其帮助管理所有数据增长的成本,并充分利用这些数据。

但到了 2000 年和...我认为是 2012 年,大数据分析的概念真正开始普及。

这得益于云存储与 S3 的成本结构相结合,使得保留所有数据并对其进行处理成为可能。同时,MapReduce 功能(最初基于 Apache Hadoop 和 Hive)也发挥着重要作用。在此基础上,逐渐形成完整的生态系统,其中包括 IcebergDatabricksEMR 和 Redshift 等。这一分析领域在 2012 年至 2015 年间迎来快速发展。

您需要思考故事的发展脉络,即数据的增长以及技术的发展如何利用这些数据进行分析。然后,您需要思考后续步骤,即对云存储(如 S3)进行升级,引入新的功能,例如强一致性,以便 S3 能够更轻松地与这些基于文件系统的 MapReduce 技术配合使用。

但您不妨想一想另一次技术变革,其中许多变革都由客户的优秀开发者推动。全球许多数据策略师都在思考:“如何利用 Iceberg 等 OTF(在线表格格式)工具?” 这一趋势始于 2017 年 Netflix 和 Apple 的部分开发者。

如果我们回顾 2017 年这一时间节点,当时全球工程师在以云存储、数据分析、开源技术和托管服务为基础的世界成长,而正是这些工程师发明出 Iceberg。

2018 年,他们将其贡献给 Apache Software Foundation。到 2020 年,Iceberg 这种开放式表格格式已广受欢迎,成为 Apache 项目中的顶级项目。随后,世界开始关注这一技术,并开始思考“如何利用这一能力改变自己的分析方式?”

这就是为什么在 2022 年,许多数据湖开始转向使用这些在线表格格式的原因。而这一趋势在人工智能领域得以延续。首批具备该功能的模型于 2022 年底推出,您猜怎么着? 这些模型基于数据进行培训,这些数据通常存储在 S3 等云存储中。

2023 年和 2024 年,客户开始利用 RAG 技术,将自身数据与通用模型相结合,以填补知识空白,实现对企业个性化知识、品牌调性及数据的精准匹配,并将其融入通用模型的能力体系中。这就是现状。即我们当前所处的阶段。

当这些数据湖规模如此庞大,存储容量达到 PB 和 EB 级时,会采用在线表格格式,并利用人工智能处理数据——既通过人工智能实现数据的个性化,同时也借助人工智能技术对数据进行转型。这真是令人惊叹。

Tom Soderstrom:
因此您提出三种模式,我认为这些模式非常有趣。我想知道您能否对其进行总结。您将其命名为:聚合、管理和扩展。我认为这对听众而言是实用的建议,可以据此采取行动。

Mai-Lan Tomsen Bukovec:
首先,我想要说明,这三种模式实际是基于对数百次对话的观察,这些对话反映 AWS 客户在大规模环境中的实际操作。好吧。

能够充分利用云的基本前提是能够将不同类型的数据整合到云。这就是聚合模型。

Tom,您还记得过去的时光吗?您有自己的数据中心,购买这些将计算和数据结合在一起的数据解决方案。如果您因图像而购买解决方案,又会使用另外的解决方案处理视频,再使用其他解决方案管理文件-

Tom Soderstrom:
这让我想起了过去。

Mai-Lan Tomsen Bukovec:
对吗? 而这些不同的解决方案意味着,组织中极具才华的工程师无法充分利用这些不同的数据类型。他们只能在与该垂直整合解决方案绑定的特定能力范围内开展工作。

云真正令人惊叹的点在于,能够整合各种不同类型的数据,并将这些数据聚合到数据资产中,同时实现对这些数据所有权的联合管理。

这种聚合模型适用于诸多客户,因为可以联合管理数据所有权:数据通过传感器、应用程序等实现传输,同时进行备份。

然后,您可以联合管理数据所有权,不同部门,无论是反欺诈部门还是市场营销部门,都可以基于此聚合数据存储构建其想要的多种应用程序。

当客户迁移到云时,会采用这种聚合数据模型,他们会发现,您根据业务需求进行定制的共享数据集也与企业文化极其契合。

Tom Soderstrom:
没错。技术如果无人使用,那将毫无用处。

Mai-Lan Tomsen Bukovec:
没错。

Tom Soderstrom:
是的。这就是聚合。您需要进行联合。下一种模式是管理。

Mai-Lan Tomsen Bukovec:
我们有很多客户坚持使用聚合模型,因为这些客户很喜欢联合管理数据所有权。但也有其他客户表示:“可以继续这样做,但如果我继续这样,就必须制定一些标准。”

这就是大规模聚合的真正运作方式,首席数据官、首席技术官、首席信息官,以及您曾经担任的角色,都会参与其中并表示:“所有人都可以将自己想要的数据放入数据湖中。但如果要使用表格数据(基本上是数字和文本),就必须使用 Parquet 数据类型。”

因此,他们根据数据类型进行标准化,或者采用 Iceberg 等表格格式进行标准化。这就是快速发展的聚合模型如何在一定程度上建立秩序,让所有人都能按照规则行事,即明确哪些数据可以纳入以及如何管理数据。

但我们有很多客户表示:“我想获取一些数据集,希望这些数据集能够同时用于人工智能和分析。但该数据集必须得到严格管理。不能包含任何个人身份信息。这必须是我希望审计人员重点关注的数据子集,因为这些数据集用于外部应用程序或敏感操作。”

而客户所做的就是调用这些数据产品,这些数据产品经过精心管理,属于管理数据模式,这是来自聚合数据湖的数据子集。好吧。Tom,真正有趣的是...您使用“模式”一词,我也使用“模式”一词。您可以自由搭配这些模式。

您的反欺诈部门可以随时访问所有不同的数据集和聚合模型,因为他们需要这些信息。他们需要原始数据,以真正实现他们对模型所期望的功能。

但您可能会说:“也许市场营销部门没有访问所有原始数据的权限。也许市场营销部门应用程序使用订阅用户数据集。” 而订阅用户数据集基于云的承诺。这是订阅用户的不同模式,包括语音客服服务以及交易记录。

但使用经管理的数据集的应用程序始终在处理已知为干净且包含个人信息的数据集,您可以根据新增的数据对该数据集进行更新,并可将该数据集的访问权限限制为应用程序的子集。因此,聚合模型和管理模型的最大优势在于,您可以根据业务需求组合使用这两种模型。

Tom Soderstrom:
这很有道理。我认为很多人都忽略了一件事情,至少高管层面是这样,并非是一群人坐在那里管理和处理所有数据。数据可以通过编程方式进行处理,以符合相关政策,从而实现审计合规,而这一点越来越重要。

Tom Soderstrom:
我认为您的扩展策略很有趣,实际上,您正在通过更集中的方式实现更大的成果。也许您想要谈论...您是领袖中的领袖。谈论文化。高管能从您观察到的客户行为中汲取哪些启示?

Mai-Lan Tomsen Bukovec:
当我与首席数据官、首席信息官和首席技术官交流时,我发现他们都对组织文化有着深刻的理解。

他们知道什么时候某个方向的负担太重,无法继续前行。与 AWS 合作的一大优势在于,我们从构建块的概念出发,这使得这些构建块作为技术基础具有极强的可扩展性。

这与聚合、管理,以及您提到的扩展,是相同概念。好吧。因为当您使用聚合时,正如我所提到的,您可以将聚合作为一种数据模式,应用于业务中某个最适合其文化需求的部分。

然后,您可以将管理应用于其他部分。但假设您了解事物发展的速度有多快,您希望基于经过管理的数据产品构建其他数据服务,并且希望对数据的使用进行更严格的管控。一是这是一项更具挑战性的任务。您需要构建 API,需要构建数据服务,需要管理该服务及其安全性

但您真正要做的是……在数据服务的底层,您需要尝试这些新技术,充分利用这些技术,并开始使用这些技术。我们目前看到的基于代理的工作流程中,这些模型正通过内存概念不断提升能力,并能够支持长期运行的工作流程。这种技术或方法的发展速度如今已非常迅速。如果您选择扩展路径,即构建数据服务并采用底层的代理基础设施,在我们的 AWS 环境中,您可以进行灵活组合。

因此,您可以对所有需要原始数据的业务需求进行数据聚合。然后,您可以对希望使用少量已清理数据产品的应用程序进行数据管理,但同时给予开发人员更多控制权。

然后开发人员会说:“我只是想要…您使用一个 API 集,您可以仅授予他们访问该 API 集的权限。” 但使用 AWS,您无需重新架构,无需更改数据架构,也无需执行传统环境中必须完成的繁琐工作。

您可以根据业务需求灵活搭配不同模式。您可以将控制权交给业务部门,让他们自行决定使用何种客户端类型,或者您可以控制他们使用的编程语言,因为他们无论如何都会使用您的 API。这为您提供很大的灵活性,让您能够根据这些新技术进行调整和更改。

Tom Soderstrom:
我认为这很重要。许多高管都问我:“我什么时候能完成? “我何时能够停止开发,然后开始使用?” 而关键在于,他们没有让自己陷入窘境。

Mai-Lan Tomsen Bukovec:
Tom,我们从未完成过。我们从未完成过。我还会说,当我与首席技术官交谈时,他们会告诉自己合作的企业所有者:“这是您的数据。您可以选择其中任何一种模式。我建议您选择管理模式,但如果您以后想迁移到这一 API,也是可以的。” 这是一次对话。

这不是自上而下地规定如何使用数据,因为这是一件非常困难的事情,因为企业所有者实际上也非常了解自己的业务和业务部门。如果能够实现两种优势的完美结合,即数据的强大功能与灵活性的不断演进,同时能够利用这些新技术,但要以安全且受控的方式进行,您就可以让企业所有者选择:“要使用哪种分析客户端? 您希望如何实际处理这些数据?”这实际上是 AWS 的核心。这是一种选择,是灵活性,但这实际是在解锁客户每天都在进行的创新。我们继续从中获得启发。

Tom Soderstrom:
您觉得…综上所述,未来五年内,高层人员及其团队面临的最大挑战和最大机遇分别是什么?

Mai-Lan Tomsen Bukovec:
我认为第一点是拥抱变革。这很难-

Tom Soderstrom:
不错。

Mai-Lan Tomsen Bukovec:
...对许多人而言,这很难。我的意思是,如果您是首席技术官、首席信息官、首席执行官,您必须时刻拥抱变革。这是生活的一部分。这是您每天的日常。事实上,您经常与自己的团队开会,您工作的一部分就是帮助团队以适合公司的方式正确接受变革。

我认为,第一个挑战不仅在于您个人如何接受变革,更在于您如何帮助组织理解这些变革,培养探索可能性的精神? 有时,这可能像推出提示库一样基本。

而提示库本质上就是工作中需要向人工智能提出的问题,以获取所需的答案。这确实是一件极具启发性的事情。如果您能提供一套问题,并培训员工如何向人工智能提出正确的问题,员工就能从与人工智能的互动中获得更多价值,这也会让人工智能变得不再那么令人畏惧。这将使入职流程更加快捷,随后人类与生俱来的好奇心将自然而然地发挥作用。我真的相信这一点。

届时,您已开始思考这一问题:“我该如何拥抱变革? 作为一名领导者,我该如何拥抱变革? 但是,我怎样才能理解自己如何帮助组织适应变革?” 我认为这将是每位工程高管面临的最大挑战之一。

Tom,这其中的第二部分是:“我该如何以一种对自身业务切实可行的方式实现这一点?” 也就是说,“我该如何利用这项美好又有趣的人工智能新技术,如何将其应用到我所做的事情中?”

Tom Soderstrom:
没错。

Mai-Lan Tomsen Bukovec:
Tom,我的建议是,寻找业务中可通过人工智能辅助提升效率的工作流程、运营环节和业务流程,从而为您的业务创造经济价值。

Tom Soderstrom:
确实如此。这完全取决于业务情况。

Mai-Lan Tomsen Bukovec:
如果您思考现代化项目如何启动,这通常由首席信息官发起,他们会说:“我们需要进行现代化。我们将迁移到云,我们将完成所有这些工作,这将为我们节省成本。” 但应用程序的所有权通常由业务部门负责。

Tom Soderstrom:
没错。

Mai-Lan Tomsen Bukovec:
但您必须告知该业务部门:“我想做这件事。你们可以做到吗?” 虽然并非每次都是如此,但有时您会得到某个业务部门的回答:“在我的优先事项列表中,您排在第 42 位

Tom Soderstrom:
没错。

Mai-Lan Tomsen Bukovec:
...。” 我有很多新功能想要实现。您让我做的事情,本质上就是移植,迁移,目前您排在第 42 位,但在我们说话之际,您的排名又有所下降。借助人工智能,使用 Q 开发者版,您可以进入应用程序体验,而 IT 通用专家可以启动迁移过程。这是因为人工智能可以理解应用程序的源代码(基于 Windows 框架)以及目标平台(.NET Core),并能够为您完成迁移。

如果无法完成迁移,您将获得一份待办事项清单。这完全是另一回事,因为此时中央 IT 职能部门可以直接向业务负责人汇报:“我已经完成大部分工作。还有两件事要处理。您想做吗? 这可以在一周内完成。”

英国金融公司、金融科技服务提供商 Signiant Group 也使用了这一功能。他们接手了一个 Windows 迁移项目,该项目原本需要八个月时间才能完成,但他们在几天内就完成了。是吗?

对他们而言,最重要的是,无需重新调整应用程序开发人员的工作优先级。这是最重要的事情。这不仅可以缩短迁移时间,还具有经济方面的优势,可以更快地避免许可费用,但更重要的是,这是一种全新的工作方式。

Tom Soderstrom:
我们经常看到这种情况。如果您能加快速度,就能降低风险,因为如果耗时过长,关键人员可能会被调离。

Mai-Lan Tomsen Bukovec:
没错。

Tom Soderstrom:
我认为这对开发人员而言也是很好的见解,因为现在可以在构建时就融入安全性和合规性-

Mai-Lan Tomsen Bukovec:
没错。

Tom Soderstrom:
...因为我们发现,从某个系统准备好上线到实际上线之间往往存在较长的延迟,因为必须先达到合规要求。我认为,这是代理式人工智能的另一大机会。

Mai-Lan Tomsen Bukovec:
而且机会巨大。我是说,所有这些工作流程。您想一想如今的工作流程,想一想代理如何提供帮助,尤其是这些代理自身具备的新能力,例如能够使用工具或调用 API,这…未来几年将会非常令人期待。

Tom Soderstrom:
如果您要给高管提出三个需要关注的方面,即三个来自 Mai-Lan 的黄金建议,您会选择哪三个?

Mai-Lan Tomsen Bukovec:
我认为首先要做的是始终从数据开始。Tom,我的意思是,您自己和多位客户交流过,您了解快速融入新世界的客户是怎样的客户。说实话,新世界也可以使用传统的机器学习。可以使用最新一代的人工智能模型,即这些功能强大的人工智能模型。也可以使用代理工作流程,应有尽有。

无论新世界如何,都建立在数据的基础上。一直都是这样。人们常说:“数据是您的差异化优势。我需要自定义和区分我的...该如何操作?” 您通过自己的数据实现这一目标。

Tom Soderstrom:
没错。

Mai-Lan Tomsen Bukovec:
对于许多客户而言,如果正在通过将数据平台迁移到云以实现数据平台的现代化,进行数据聚合的第一步时,要做的就是加快速度。由于当今世界发展速度如此之快,且存在多种与数据互动的方式,如果不迈出这基础性的第一步…我认为整个世界将以如此迅猛的速度发展,以至于您会被远远甩在后面。

Tom Soderstrom:
我同意。风险在于无所作为。

Mai-Lan Tomsen Bukovec:
Tom,风险在于不采取行动或行动太慢。第一点:实现数据平台现代化。是吗?

第二点:保持永不停息的好奇心。这个时代充满转折...而我们正身处其中。我们曾经历过云计算的浪潮,目前正处于人工智能的浪潮之中。在这些重大转折时刻,组织寄希望于其领导者制定决策-

Tom Soderstrom:
没错。

Mai-Lan Tomsen Bukovec:
...如何应对这一新世界、这一新领域? 如果领导层...我的意思是,从组织高层到基层,有时会出现一种名为“僵化中层”的现象,即-

Tom Soderstrom:
没错。

Mai-Lan Tomsen Bukovec:
...组织领导者对未来充满期待和热情,并发现实现目标的可能性。组织中的开发人员也会觉得“这其实真的很酷”。

但中间层会陷入僵局,因为他们不知道如何运用新技术,又清楚无法回头。他们会陷入困境。当您思考组织领导力时,您将如何拥抱变革? 您要怎么做? 其中很大一部分是思考如何以一种能立即为组织提供价值的方式,推出这些新技术的优势。

Tom Soderstrom:
这很重要。

Mai-Lan Tomsen Bukovec:
这很重要。这就是为什么我对这些后台应用程序感到非常兴奋,因为这些应用程序能够提升企业的生产力,虽然可能不是全新的客户体验,但我可以告诉您,这些应用程序正在改变团队的工作方式。

Tom Soderstrom:
第三点?

Mai-Lan Tomsen Bukovec:
我认为第三点更偏向于个人层面。对我而言,这与前两点相关,但……这场大规模的创新浪潮尚未结束。我的第三点建议针对每位高管,即:在您的一天中,您会做些什么以了解这个世界的发展方向?

Tom,因为我认为我们才刚开始。所有这些功能强大的模型、代理基础设施以及最新的发展动态,您只需关注每三到六个月就会出现的这些新公告和新发现即可。作为组织领导者,我们应当如何做,才能在自己的时间里、自己的日常中创造出思维空间,确保我们能够吸收信息、展望未来,并完成我之前提到的首要任务呢? 因为有时我们会忘记这一点。在这一快速变化的时代,我们自身倾听、学习以及拓展所构建产品边界的能力,与我们吸收变革信息并引领变革的能力直接相关。

Tom Soderstrom:
Mai-Lan,非常感谢。每次合作都很愉快。

Mai-Lan Tomsen Bukovec:
Tom,我也非常荣幸。

Missing alt text value
Rapid data growth rates are driven by everything from sensors to consumer behavior. And I feel like the data strategists of the world have moved on from, 'What are we going to do about the explosion of data growth?' and more into, 'How do we take advantage of using it in the right way?'

Mai-Lan Tomsen Bukovec, VP of Technology at AWS

订阅并收听

在您喜欢的播客平台上收听此集内容: