亚马逊AWS官方博客
行业筑基 iData · GenAI驱动的企业数据架构重塑
1. 引言:企业智能化落地的数据困境
在数字化转型的浪潮中,企业智能化已成为提升核心竞争力的关键。然而,根据多项调研数据,大多数企业在这条路上举步维艰。73%的高管无法从遗留的、脱节的供应链、资产和运营中获得可操作的数据驱动洞察;35%-65%的受访者指出工具不兼容是阻碍智能化的关键问题。
企业数据整合之所以困难,根本原因在于:
跨系统与跨部门协作的巨大沟通成本
当一个业务问题需要多个系统提供数据支持时,往往涉及多个部门的多名人员。从提出需求、沟通理解、数据获取、格式转换到最终分析,这一过程可能需要几天甚至几周时间。这些沟通与协调的时间成本,往往吞噬了AI本该带来的效率提升
系统间整合临时性与片面性
许多企业的系统整合是临时性的,缺乏完整视角。大量数据被存储在各个独立系统中,彼此之间有限互联或完全没有连接,导致数据流通受阻。一个简单的业务问题可能需要横跨多个系统才能获得完整答案,这使得数据的价值难以充分释放。
生成式AI的出现让业务部门(LoB)开始重新思考如何解决业务问题。产品经理需要结合销售部门的客户反馈和技术团队的开发进度来优化产品路线图;供应链经理需要同时访问采购记录、物流数据和财务部门的付款状态来解决交付延期问题;市场团队希望整合客服部门的用户投诉与研发团队的缺陷跟踪系统来改进宣传策略;人力资源部门需要分析跨越财务、业务和管理层的多维度数据来优化人才配置。这些跨系统、跨部门的数据需求,亟需一种更高效的数据架构来支撑。
制造、汽车、零售、游戏、媒体广告、金融服务、医疗健康七大行业虽业务场景各异,却共同面临”数据孤岛”这一核心瓶颈——多部门、多系统、多格式的数据割裂严重制约数据驱动决策。 数据异构性体现在格式(SQL/Excel/文本/影像/日志/IoT流)、更新频率(毫秒级实时至周级批量)、存储位置(分散于各业务系统)三个维度。金融与医疗还叠加严格的合规与隐私要求,进一步提升整合难度。传统分析依赖人工经验和固定报表,难以支撑灵活按需的跨源洞察需求。当前Text2SQL等AI技术仅解决单一结构化数据查询,对跨数据源融合分析仍存在明显能力缺口。打通数据孤岛、实现异构数据智能整合,已成为企业数字化转型的关键突破口,具备语义理解、跨源融合与合规保障能力的AI数据平台将成为核心解法。
| 维度 | 汽车与制造 | 零售 | 游戏 | 媒体与广告 | 金融服务 | 医疗健康 | |
| 1 | 核心痛点 | 研产销服数据孤岛,跨部门全流程优化困难,车联网海量数据利用率低 | 异构数据整合难,营销效果评估低效,库存与需求匹配滞后 | 分析需求繁复,跨源洞察能力不足,策划迭代依赖数据平台 | 内容与广告效果优化难,创意匹配慢,用户行为理解碎片化 | 风控数据分散,客户视图不完整,合规监测滞后,反欺诈响应慢 | 患者数据分散于多系统,跨院互通难,隐私合规要求高 |
| 2 | 涉及部门 | 研发、生产、质检、工程、采购、销售、售后、车联网运营 | 销售、营销、仓储物流、客户服务 | 策划、运营、营销、客服 | 内容编辑、广告投放、用户运营、创意设计、数据分析 | 风控、合规、零售业务、对公业务、客服、营销、IT | 临床科室、检验科、影像科、药剂科、医保、科研 |
| 3 | 数据来源 | PLM/MES/QMS(生产质检)、SCM(供应链)、DMS(经销商)、TSP(车联网)、售后系统 | 交易系统、仓储管理系统、CRM系统、广告平台 | 玩家行为日志、游戏内经济系统、营销平台、客服系统 | CMS(内容管理)、广告投放平台、用户行为系统、社交媒体、版权系统 | 核心业务系统、交易系统、CRM、征信系统、外部数据源、监管报送系统 | HIS(医院信息)、LIS(检验)、PACS(影像)、EMR(电子病历)、医保系统 |
| 4 | 数据格式 | CAD/CAE设计文件+生产结构化数据+车联网IoT流+非结构化(客诉、工单) | SQL、Excel、文本多样 | 实时流+批量日志+结构化表 | 文本、视频、图片、用户日志、广告效果数据 | 结构化交易数据+非结构化(合同、录音、影像、舆情) | 结构化(检验报告、处方)+非结构化(病历文本、医学影像) |
| 5 | 更新频率 | 设计数据低频+生产实时+车联网毫秒级+售后日级 | 小时级/日级/周级不一 | 近实时+批量+不定期 | 内容发布不定期+广告效果实时/日级+用户行为实时 | 交易实时+风控实时+日终批量+监管周期性 | 门诊实时+检验日级+影像批量+科研周期性 |
| 6 | 关键场景 | 产品质量追溯、设备预防维护、工艺优化、供应链协同、用户驾驶行为分析、OTA策略优化 | ROI分析、精准营销、库存优化、客户全生命周期管理 | 留存/付费优化、关卡难度调整、虚拟经济平衡 | 内容智能推荐、广告效果归因、用户画像构建、创意A/B测试、版权追踪 | 实时风控、反欺诈、客户360画像、智能营销、合规监测、信贷审批 | 临床决策支持、药物相互作用预警、疾病风险预测、科研队列分析、医保控费 |
| 7 | 整合价值 | 缩短研发周期、提升整车质量、降低售后成本、优化用户体验 | 提高营销ROI、降低库存成本、提升转化率 | 提升LTV、优化游戏体验、缩短迭代周期 | 提升内容分发效率、优化广告ROI、增强用户粘性、加速创意迭代 | 降低风险损失、提升客户体验、满足监管要求、提高审批效率 | 提升诊疗效率、减少误诊漏诊、优化医疗资源配置、加速临床科研 |
| 8 | AI应用现状 | 单点应用起步,车联网数据利用率低,研产销服打通困难 | Text2SQL起步,跨源分析不足 | Text2SQL有应用,海量原始数据分析存在瓶颈 | 推荐算法相对成熟,跨平台数据整合与创意智能化不足 | 风控模型较成熟,但数据孤岛严重,跨条线客户视图缺失 | 隐私合规限制大,跨系统整合困难,AI辅助诊断仍在探索 |
| 9 | 特殊挑战 | 供应链上下游协同、车规级数据安全 | 促销峰值弹性、全渠道统一 | 玩家隐私、游戏平衡性 | 版权合规、内容审核、多平台分发 | 强监管合规(反洗钱、数据本地化)、金融级安全 | 强隐私保护(HIPAA/个保法)、医学知识专业性 |
2. 企业数据架构的演进历程
企业数据架构经历了三个关键发展阶段:
第一代:数据驱动阶段(分散的数据孤岛)
早期企业数据架构特点是系统独立、数据分散。ERP、CRM、业务系统各自为政,数据存储在各自的数据库中,形成众多”数据孤岛”。这一阶段的企业主要关注数据的存储和基本运营,缺乏整体视角。
第二代:数据洞察驱动阶段(集中式数据平台)
随着数据量增长和分析需求提升,企业开始建立集中式数据平台,如数据仓库和数据湖。通过ETL工具从各业务系统抽取数据,集中存储并进行分析。这一阶段的企业追求”单一数据真相源”(Single Source of Truth),通过BI和高级分析工具提取数据洞察。
第三代:业务与创新驱动阶段(去中心化领域知识)
随着GenAI等技术发展,企业数据架构正向去中心化领域知识模式演进。这一模式保留了集中式数据平台的优势,同时在业务领域层面构建知识系统,整合供应链、研发、制造、可持续性等领域的专业知识,以支持更高效的业务决策和创新。
这种演进使GenAI能够获取企业上下文,提供真正可执行的洞察,从而实现数字主线(Digital Thread)—— 一种能够连接产品开发过程中传统上孤立的元素,并在整个生命周期中提供资产集成视图的通信架构。
3. GenAI驱动下的数据架构重塑
业务数据链条的重要性
打通业务数据链条是企业实现业务创新的关键。传统企业中,数据常被局限在设计、制造、运营等不同环节中,缺乏有效连接。这种断裂导致企业无法看到产品全生命周期的完整视图,从而限制了数据价值的发挥。
然而,建立这种链条面临多重挑战:
- 数据孤岛:不同系统的数据格式、结构各异
- 人员孤岛:不同部门人员使用不同系统,缺乏共同语言
- 业务孤岛:各业务领域有其独特术语和流程,难以统一理解
业务领域知识系统构建与数据产品目录
在现代企业数据架构中,业务领域知识系统是连接传统数据平台与终端用户的桥梁。这一系统不是简单堆叠现有数据,而是按业务领域(如财务、客户、供应链等)组织数据,并通过”数据产品”的概念使数据更易被消费。
![]() |
数据产品目录的关键作用
数据产品目录是整个架构中的核心环节,它存储了对应的业务领域知识,使数据能够被有效组织和发现。单个数据系统可能存储海量数据,但业务用户往往只需其中一小部分。数据产品目录通过以下方式解决这一问题:
- 领域知识映射:将业务术语与底层数据建立映射关系
- 语义层建设:提供业务友好的数据定义和计算逻辑
- 元数据管理:记录数据来源、处理方式和质量指标
- 数据依赖关系:明确不同数据产品之间的关联
这使得AI系统能够感知可用的数据产品,并根据需要调用适当的数据,而无需了解底层数据的复杂结构。
从传统知识图谱到Agentic AI数据系统
Agentic AI将传统知识图谱的理念提升到整个数据系统层面。传统知识图谱通常是静态的,主要解决数据关联问题;而基于Agentic的数据系统则是动态的,能够主动理解业务问题,协调各系统获取数据,并生成有价值的洞察。
在这一模式下,不同业务领域会有专门的Agent负责处理该领域内的数据请求。例如,当产品经理需要了解”客户对产品的使用体验和新产品成本与收益”时,系统会自动协调产品专家Agent、财务专家Agent、客服专家Agent等多个角色,从SCM、OMS、CRM等系统获取所需数据,最终生成完整报告,整个过程无需人工协调多个部门。
![]() |
这种Agent协作模式实现了真正的”按需即时取数”,其工作方式高度拟人化,就像在一个高效团队中各司其职的专家协同工作。以产品经理的这个请求为例,完整流程是这样展开的:
- 需求识别与分解:产品经理向产品专家Agent提出综合性问题,该Agent会像一位经验丰富的产品总监一样,将这个复杂问题分解为多个专业子问题。
- 多Agent协同调度:
- 产品专家Agent首先向客服专家Agent请求”是否有客户反馈相关数据”
- 同时向财务专家Agent询问”新产品成本和收益数据”
- 二级Agent精准取数:
- 客服专家Agent进一步细分需求,分别向VOC专家Agent请求”新产品用户反馈汇总”,向售后专家Agent获取”新产品用户问题数据”,这些Agent则从CRM系统中精准提取相关数据
- 财务专家Agent向供应链专家Agent请求”新产品物流成本数据”
- 供应链专家Agent从SCM系统获取”新产品物料成本”和”新产品配送成本”
- 销售专家Agent则向OMS专家Agent请求”新产品订单数据”,并直接获取销售报表数据
- 数据聚合与转化:各专业Agent不只是简单传递原始数据,而是像真实的业务专家一样,对数据进行清洗、分析和解读,将技术指标转化为业务洞察。
- 智能报告生成:产品专家Agent最终收到所有反馈后,综合各方面信息,生成一份既包含客户使用体验分析,也包含成本收益评估的完整报告,就像一位资深产品总监提交的专业分析报告。
整个过程中,每个Agent都精准理解自身职责范围内的数据需求,既不会过度索取造成系统负担,也不会遗漏关键信息。这种拟人化的数据获取方式不仅提高了效率,更重要的是保持了业务语境的连贯性,使最终生成的分析报告既有数据支撑,又具备业务洞察,真正实现了”数据即服务”的理念。
4. 现代企业数据架构实现路径
建设现代企业数据架构是一个渐进过程,可分为三个阶段:首先是智能外围阶段,通过非侵入式AI数据助手连接现有系统,由数据Agent统筹数据获取、内容管理与协同功能,以知识库为核心实现语义理解与跨系统整合;其次是主动数据架构阶段,实现需求驱动的数据发现与自动化管道构建,将一次性查询转化为持久化数据产品,并能智能设计数据模型以满足变化的业务需求;最终发展到数据即服务阶段,形成自治型数据产品生态系统,实现数据产品间自动协作与自我优化,构建全面覆盖业务领域的智能数据服务体系。
阶段一:智能外围 – 保留核心系统的AI数据助手
![]() |
智能外围架构建立了原始数据系统与数据Agent之间的桥梁:
原始系统层:包括企业现有的数据API接口、原始数据系统以及下游数据API
Agent智能层:由数据Agent统筹,包含三个核心功能模块:
- 数据获取工具(Function Caller):负责调用API、执行查询和提取数据
- 数据内容管理(RAG):处理数据检索、增强和上下文理解
- 下游协同(Collaborator):协调多个Agent之间的数据交换和任务分工
转换机制:
- MCP Server:管理API调用与数据获取工具之间的通信
- Knowledge Base:连接数据缓存与内容管理,提供知识支持
- Multi-Agen:实现下游数据与协同模块的交互
相对传统系统的突破性创新。传统企业数据系统(左侧)存在”程序化实现”和”人工介入”的割裂状态,例如在ERP、CRM和LOB系统形成独立孤岛,数据难以自动化流通。而智能外围架构(右侧)通过数据系统Agent统一协调,实现了各业务领域Agent(如ERP Agent、CRM Agent、LOB Agent)的智能连接。每个业务领域Agent都配备专属数据获取工具和内容管理系统,通过上下行数据流实现整体协同。
![]() |
知识库的核心价值:
在这一架构中,数据内容管理知识库是整个系统的关键基础设施,发挥着不可替代的作用:
- 语义连接:知识库充当业务语言与系统数据之间的”翻译官”,使AI能够理解业务术语并映射到相应数据源
- 上下文保存:保存历史交互和业务背景,确保AI理解查询意图的连续性
- 跨系统推理:支持AI根据已有知识推断出可能需要查询的其他系统,实现主动数据关联
- 数据解释:提供对原始数据的业务解释框架,帮助AI生成有业务价值的分析结果
- 权限与规则:存储数据访问规则和使用约束,确保AI在合规前提下操作数据
这一阶段采取非侵入式方法,保留现有数据系统不变,通过外部AI系统扩展功能:
- 智能数据采集与整合:Agentic AI自动收集、清洗和关联来自不同源的数据
- 主动洞察生成:AI持续监控数据流,自动识别模式和趋势,生成业务洞察
- 知识库构建:建立基础的业务领域知识库,支持跨系统查询
下面展示了一个案例:
该Demo构建了一个COO视角下的企业数据概览,包括三个关键部门对应的数据系统:销售部门、供应链部门和客服部门。界面清晰地展示了整体架构中的主控与分支关系:
主控面板:展示了COO Agent(Orchestrator)的功能区域,作为整个数据协作的枢纽,负责跨部门任务的分发与协调。该Agent由两个核心部分组成:
- 知识库(KB):包含企业宏观战略、部门协作规则、数据治理政策及业务流程图谱
- MCP工具集:提供系统级别的数据调用接口,支持跨部门数据整合与分析
部门区域:展示了各业务部门的专属Agent,包括:
- 销售Agent:连接CRM系统和订单管理系统
- 供应链Agent:连接库存管理系统和物流跟踪系统
- 客服Agent:连接客户反馈系统和工单管理系统
每个Agent(无论是orchestrator,还是部门Agent),均由知识库(包括该领域的业务规则、术语解释、历史决策记录和数据模式)和数据系统(MCP Tools)或者子数据Agent构成。这种结构确保了每个Agent不仅能够获取数据,还能理解和解释数据的业务含义。
通过这种架构设计,COO可以直观地监控整个企业数据生态,并在保留原有系统独立性的同时,实现跨部门的数据协同和智能决策支持。知识库在这一架构中发挥着关键作用,它使得不同部门的数据能够在业务语义层面实现连接,为企业提供全局视角的数据洞察。
![]() |
当我们询问一个问题包括:
XXX产品的销量如何?业绩达标了吗?(是什么?)
为什么没有达标(为什么?)
怎么改进(怎么办?)
分析流程:每个步骤都由特定Agent负责,并通过知识库获取必要的业务上下文:
- 问题接收与解析:理解用户提问意图
- 相关数据收集:自动从多个系统提取数据
- 根因分析:推断问题产生的可能原因
- 解决方案生成:提出针对性建议
![]() |
阶段二:主动数据架构 – AI赋能的数据系统演进
在阶段一基础上,开始构建更为主动的数据架构:
- 需求驱动的数据发现:AI代理根据业务问题自主寻找相关数据源并评估其价值
- 智能数据模型构建:自动设计和实现新的数据集和架构以满足不断变化的需求
- 自适应数据管道:AI系统持续优化数据流程,消除瓶颈并提高整体系统效率
- 数据产品目录初步建立:开始正式构建数据产品目录,支持跨领域数据访问
需求驱动下持久化数据管道的构建过程:从右侧数据消费者出发,业务用户通过GenAI应用界面提出数据需求,触发中右部分的GenAI存储与应用层响应。在这一层,Agent计划系统智能分析请求、制定数据获取方案并协调执行;生成式AI模型(LLM)提供语义理解能力;数据获取与分析模块规划具体执行路径。这些智能组件不仅满足当前请求,更会建立起持久化数据管道 – 将一次性请求转化为可重复使用的数据流程。请求传递至中部数据处理中枢,这里的”Data治理”模块确保数据质量与一致性,而底层的”数据产品(领域知识管理)”则将临时数据需求转化为持久化数据产品,定义标准化的数据结构、处理逻辑和访问接口。系统根据需要调用批处理或实时处理工具,建立从左侧数据生产者(ERP、CRM、LOB等系统)到最终用户的端到端数据管道。这种方式使每个业务请求不只是一次性查询,而是促成可持续利用的数据资产的形成,实现了从”重复建设”到”积累沉淀”的数据能力提升模式。
![]() |
还是以上面的数据为例,现在COO提出了一个新的业务/数据领域构建请求:请帮我生成新的数据系统用于风险管理监测
分析流程
需求收集与理解:
- 起始于COO输入请求:”请帮我生成数据架构设计方案给管理层测”
- COO Agent通过主动提问方式明确关注点:”风险管理相关运营指标?”
- 系统识别出关键需求指标,包括”生产环境数据质量与业务流程相关指标”和”用户体验度量指标分析”
数据源智能发现与能力评估:
- COO Agent自动识别并调用相关业务Agent:销售Agent、客服Agent和供应链Agent
- 各业务Agent主动报告其可提供的数据接口:
- 销售Agent:销售量、市场量、利润等核心指标
- 客服Agent:用户满意度、投诉量等体验指标
- 供应链Agent:生产量、库存量、交付指标等
智能数据管道设计:
- 基于需求自动规划数据存储方案:
- 为非结构化用户行为数据选择NoSQL存储
- 为结构化业务数据规划关系型数据库
- 为历史分析数据设计数据仓库平台
- ETL流程智能设计:
- 设计数据转换规则并考虑跨系统关联需求
- 规划批处理作业自动调度
- 设计数据处理监控机制
- 自动纳入安全与合规考量:
- 数据加密方案
- 基于角色的访问控制策略
- 备份与恢复计划设计
- 数据合规要求分析
综合架构方案生成:
- COO Agent生成完整的数据架构设计方案,包含:
- 核心风险管理指标框架与数据源映射
- 三大支撑系统设计:智能风险预警、客户体验监测、质量追溯系统
- 系统预期效益分析:提升异常识别能力、改善客户体验、降低质量问题
当确认新的数据领域构建后,便会形成新的风险管理数据领域
![]() |
阶段三:数据即服务 – 自治型智能数据产品
最终阶段是建立完全自治的数据生态系统:
- 智能协作网络:数据产品之间建立自动化协作机制,形成自组织的数据生态系统
- 持续价值创造:数据产品能自主进行分析、洞察生成和结果整合,无需人工干预
- 自主数据产品生态:每个数据集作为独立产品运行,具备自我管理和优化能力
- 完整的数据产品目录:覆盖所有业务领域的数据产品,支持复杂业务场景
![]() |
5. 结语
GenAI驱动下的企业数据架构重塑不仅是技术升级,更是企业思维方式的革新。通过打通业务数据链条,构建业务领域知识系统,企业能够:
- 显著降低跨部门数据获取与分析的时间成本
- 提升数据驱动决策的准确性与时效性
- 释放员工创新潜能,将精力从繁琐的数据收集转向高价值分析
在这一转型过程中,数据产品目录的建设尤为关键,它将企业专业知识与数据资产高效连接,支持AI系统”理解”企业数据的业务含义。
成功的企业数据架构重塑需要技术与业务的紧密协作,以及自上而下的战略支持。企业应根据自身数字化成熟度,选择适当的起点,循序渐进地建设现代企业数据架构,使GenAI真正成为业务创新的强大引擎。
人类和技术的结合始终是推动企业向前发展的核心。GenAI不是要取代人的价值,而是通过重塑数据架构,释放人更多的创造力,共同开启企业智能化的新篇章。
*前述特定亚马逊云科技生成式人工智能相关的服务目前在亚马逊云科技海外区域可用。亚马逊云科技中国区域相关云服务由西云数据和光环新网运营,具体信息以中国区域官网为准。
本篇作者
AWS 架构师中心: 云端创新的引领者探索 AWS 架构师中心,获取经实战验证的最佳实践与架构指南,助您高效构建安全、可靠的云上应用 |
![]() |










