亚马逊AWS官方博客

如何使用数据网格创建现代包装消费品 (CPG)行业数据架构

自新冠肺炎 (COVID-19) 疫情以来,我们看到世界各地都在向在线购物和直接面向消费者的销售进行翻天覆地的转变。可以说,包装消费品 (CPG) 行业比任何其他行业都更能感受到这种转变。根据统计,“零售网站在 2020 年 6 月创造了近 220 亿次访问量,而 2020 年 1 月,其全球访问量为 160.7 亿次。” 网站流量在 6 个月内大幅增长 27%,这加速了公司(特别是 CPG)需要管理的数据量。

历史上,大多数 CPG 并没有直接与消费者交流,因此数据很少,且主要代表了内部信息,例如与零售合作伙伴的订单和运输详情。现在,精明的消费品公司开始跟踪最终用户客户和外部数据,例如搜索分析和社交媒体情绪。在本博客文章中,我们将深入探讨大规模管理数据的主题,并解释为什么 CPG 应考虑使用数据网格进行数据管理的新方法。

 

CPG 组织之间的数据流

首先,我们从数据生态系统的概述开始。由于数据已成为竞争差异化的一个重要点,因此,很多公司允许各个业务层面的人通过分析和机器学习来使用、转换和增强数据——将数据视为不断发展、不断扩展的资产。这对于利用数据推动产品开发和营销决策的 CPG 品牌经理尤其重要。

现代数据生态系统中有三个核心组:

  • 数据生产者 – 拥有传入数据系统或来源(订单、发票、库存等)的领域专家。
  • 数据平台构建者 – IT 团队的一部分,其成员拥有不同数据技能,其要求具体取决于公司的成熟度。
  • 数据消费者 – 使用数据优化业务、做出决策和定义策略的分析师和运营者。

 

CPG 的数据湖面临的挑战和局限

数据湖通常用于管理数据的快速增长。该集中式存储库存储结构化和非结构化数据。您可以批量或通过实时流式传输来注入信息。但是,当具有大量数据源的数据扩展到 PB 级时,这种经过验证的技术就有一些局限性:

  • 安全挑战 – 实现大规模精细安全性非常困难。
  • 通用方法 – 一刀切的方法不允许您针对特定数据集优化数据湖。
  • 完整性问题 – 通常,数据输入数据湖后会丢失上下文。
  • 手动维护 – 不同的,冲突的数据集需要人工操作。

这些限制会转化为较长的开发周期和瓶颈,从而无法将数据输入数据湖并从中提取有意义的信息,这意味着许多 CPG IT 部门都在努力地大规模维护和挖掘数据。同时,对于数据消费者来说,访问和分析企业数据可能非常复杂且令人沮丧。

在数据湖模型中,数据被摄取到企业数据湖中。中央平台团队负责管理安全性、摄取、转换、访问和数据可用性。数据生产者和消费者需要通过集中化团队来存储和访问数据。

 

从整体到可管理:一种软件类比

由中央 IT 部门管理的数据湖类似于 20 世纪 90 年代的整体软件产品。刚性、相互依赖性和缓慢的开发周期是软件开发中的微服务革命背后的驱动力,它提供了可扩展性、更短的开发周期、隔离安全性和更轻松的管理。

那么我们如何将同样的微服务设计原则应用于数据呢? 在CPG 行业(以及其他行业)的答案是数据网格。

数据网格是一种相对较新的架构设计,它解决了单体式数据湖架构的缺点,并提供了与软件设计中的微服务类似的益处。在数据网格中,数据本身就是产品,并且由与领域无关的自助式数据基础设施提供支持。数据网格通过以下方式打破了传统数据湖的单体性:

  • 数据即产品 – 在典型的数据湖中,数据湖和数据管道就是产品。在数据网格中,数据以及收集和发布数据的领域和生产者专业知识是产品。
  • 分散式所有权 – 与 IT 集中管理的数据湖不同,数据网格具有分散式所有权。不同的业务领域(数据生产者)负责策划、验证、发布、维护和生命周期管理他们拥有的数据。
  • 精细、可扩展的访问控制 – 由于数据被数据网格中的生产者所拥有,因此由他们指定访问、治理和保留策略以及基于数据粒度的任何自定义访问策略。这样一来,通过将责任和访问控制策略推送给数据所有者,消除了数据湖的集中访问控制瓶颈。
  • 可扩展的数据发现 – 数据网格允许消费者根据领域、粒度、质量、频率等发现、识别和订阅数据。这使可扩展的消费者可以访问和发现,并消除对集中式团队的依赖。

当生产者在数据网格中发布数据时,他们会使用以下属性创建不可变的数据契约:

  • 数据类型
  • 物理模式
  • 业务特点
  • 分发频率
  • 数据质量声明
  • 生命周期策略

数据契约是一种确保在整个企业中可以发现数据的机制。合同属性与数据的整个生命周期相关联,数据消费者可以发现和订阅特定的数据契约属性。

在网格架构中,数据可以存储在生成数据的位置。中央平台团队负责管理安全性,确保契约得到执行,并提供工具和自动化。数据生产者和消费者可以访问和查看整个企业中的所有数据,并可以彼此之间进行通信。

 

CPG 行业的数据网格参考架构和用法

以下是一种典型的数据网格实现的示例:

该设计使用 pub/sub 模型。尽管该解决方案使用Amazon Lake Formation 一种可以简化数据湖创建工作的服务,但您需要手动定义数据源、访问权限和安全策略。您可以使用 Amazon Glue 发现数据目录中的数据,也可以使用契约中定义的属性发现元数据。

 

用数据网格管理单独的微服务数据集

近年来,CPG 行业投入了大量资金,使用微服务和容器架构实现在线基础设施的现代化。在这种新的设计模式中,每项微服务都会创建单独的数据集(搜索、结账、排序、产品等),且新的不同数据会成倍增加。每个独特的数据流都由不同的数据生产者拥有,并且具有不同的质量、治理和生命周期属性。生产者可以配置数据流以实时或批量上传到数据平台。这种微服务设计能够自然地适合数据网格概念实施模式。

有关 CPG 行业微服务的更多信息,请务必阅读 Danny Yin 的博客文章《在 CPG 中迁移到微服务架构的成功策略》。

 

将数据管家指定为 CPG 中的数据点人员

为了确保数据网格架构的可扩展性,组织通常会指定一名数据管家,他是一位对生产者生成数据的方式、数据本身的契约属性、用户访问控制、数据清洁度和预期的消费者使用模式有深入了解的专人。数据管家的任务是确保数据在整个生命周期中的契约完整性,并帮助管理任何契约修改。

 

在数据清洁室中挖掘受限的 CPG 数据

在这种新兴的使用案例中,清洁室包含原始数据,例如 PII 或 POS 交易数据,这些数据可能受到隐私限制的约束。在清洁室中,数据消费者可以通过充足的匿名化运行聚合查询。数据消费者还可以使用不受限制的数据联合匿名数据进行分析信息,同时遵守隐私要求。数据网格架构通过强制执行数据的契约限制去原生支持清洁室要求。

随着各国采用严格的数据隐私规则,例如 OECD 指南或欧盟《一般数据保护条例》,管理如何维护、保护、使用和处置数据的规则变得更加复杂。数据网格架构可以正确隔离数据、强制执行安全策略并授予对数据的访问权限。数据优先的设计和数据网格的精细访问控制提供了支持数据隐私要求的原生机制,而不需要昂贵的企业范围的数据项目。

 

使用数据网格与 CPG 相关的供应商协作

很多 CPG 都在试图优化第三方提供商的运营,例如提供原材料和成品的供应链和物流供应商。数据网格是从头开始设计的,以在原生支持 CPG 和供应商之间的协作。内部和外部数据生产者和消费者可以通过商定的契约自由交换数据,而数据不可变性为多供应商系统的高效运行提供了完整性。

 

结论

数据网格架构是单体数据湖和数据仓库的现代化方法,从而使 CPG 行业能够大规模管理数据。询问亚马逊云科技如何支持您的数据转换。立即联系您的 Amazon Web Services 账户团队以开始行动,或访问我们的消费性包装品页面了解更多信息。

 

本篇作者

Ilan Raab

Ilan Raab 是亚马逊云科技消费性包装品 (CPG) 行业的全球技术领导者。Ilan 于 2019 年加入亚马逊云科技,负责定义和执行公司的 CPG 技术策略,其中包括在制造/移动/市场业务领域构建以 CPG 为重点的解决方案。他经常与亚马逊云科技CPG 客户合作,利用尖端的亚马逊云科技技术和思想领导力来帮助他们实现业务转型。在加入 AWS 之前,Ilan 是企业软件和网络领域多家初创公司的工程副总裁兼联合创始人。

Marco Chiapusso

Marco Chiapusso 于 2020 年 1 月加入亚马逊云科技,担任欧洲、中东和非洲的解决方案架构经理。他与全球企业客户合作,共享云如何帮助他们提高速度和敏捷性,同时让他们能把更多的时间花在客户身上的最佳实践、技术和策略。在加入亚马逊云科技之前,Marco 担任了多个高级技术职位,领导并共同领导了多项大规模计划,将组织转变为技术赋能型现代公司。其中包括开发和部署一个拥有超过 1PB 数据的现代数据平台,从而提高客户洞察力,并大规模增强机器学习能力。Marco 在 Adidas 的经验和任期涉及多个领域,包括架构、开发、支持、数据、创新(包括 AI 和 IoT)以及组织发展。