900 张表、每天增量 5TB
数据入湖
30%
维护成本降低
40%
开发效率提升
100%
查询性能提升
概述
敦煌网(DHgate)成立于 2004 年,是领先的 B2B 跨境电子商务交易平台,在品牌、技术、运营、用户四大维度上已建立起竞争优势,为来自 225 个国家和地区超过 5960 万名注册买家提供服务,将他们与超过 254 万卖家连接。平台每年有超过 3400 万个在线商品,拥有 100 多条物流线路和 10 多个海外仓,71 个币种支付能力,在北美、拉美、欧洲等地设有全球业务办事机构。面对敦煌网的大数据战略需求,亚马逊云科技助其构建起端到端的一站式数据分析平台,完成了 Apache Hudi on Amazon Elastic MapReduce (Amazon EMR) 900 张表入湖,并支持每天 5TB 增量数据入湖,最终实现 IT 维护成本降低 30%,开发效率提升 40%,成功帮助客户打造了数据驱动型企业。目前,敦煌网使用的亚马逊云科技服务包括:Amazon Simple Storage Service (Amazon S3)、Amazon EMR、Amazon Redshift、Amazon OpenSearch Service 等。
机会 | 建设大数据云底座,加速企业数据洞察
如今,在各种不确定因素影响下,跨境电商是否依然是一片蓝海?对此,敦煌网集团技术中心副总裁刘文涛给予肯定答复,他表示:“各垂直类跨境电商所关注领域并不同,且国家政策鼓励将中国制造输出海外,此外,社交电商赛道的蓬勃发展,也激发了跨境电商更多可能性。”
值得敦煌网挖掘的空间还非常大,也充满想象力,刘文涛认为首要一点,是从企业内部出发,对敦煌网沉淀了近 20 年的大数据资产进行深度挖掘、洞察和使用。随着平台业务日趋成熟,经营范围持续扩大,品类和渠道的增加,以及 AIGC 等行业新技术在运营提效场景下的广泛应用,敦煌网迫切需要打造集数据集成、开发、资产管理和服务等功能为一体的一站式大数据平台,对多年积累的海量数据进行分析挖掘,激活数据价值,带动服务水平和业务反应速度的提升。
敦煌网之前采用的是传统 IDC 大数据集群,维护成本高,计算存储耦合,算力瓶颈无法实现弹性伸缩,技术架构相对保守封闭。因此,敦煌网亟需构建一套现代化的智能湖仓架构,作为大数据平台的云底座,确保数据无缝流转,并通过精细化运营和成本优化,实现资源能够随业务灵活扩缩,达成数据驱动决策,算法增长业务的目标。
为了实现大数据战略,敦煌网通过前期调研,对离线集群、数据仓库引擎、对象存储等进行多个维度、多家厂商及开源方案深入评估测试后,最终选择亚马逊云科技为其建设大数据云技术底座。选择亚马逊云科技的原因有两点:第一、亚马逊云科技生于零售,拥有强大的电商创新经验,与敦煌网的业务模式非常契合,为电商行业专门构建的产品和服务经过自身多年检验,从架构兼容性、算力、维护成本、开放性、扩展性等角度都能够很好满足敦煌网的需求。此外,安全合规已成为各国政府持续监管重点,亚马逊云科技满足全球范围内严苛的合规标准,能够有效保障敦煌网全球范围的数据安全和隐私保护。
通过使用像 Amazon EMR,Amazon Redshift 这样的云原生数据分析组件,我们构建了‘更准、更全、更快、更稳’的端到端数据分析平台,使大数据的 IT 维护成本降低 30%,开发效率提升 40%,解决了算力瓶颈,让我们可以把更多精力和资源投入到提升数据化运营能力和增长洞察上。”
刘文涛
敦煌网集团技术中心副总裁
解决方案 | 智能湖仓架构 + 大数据平台,实现数据价值可持续释放
借助亚马逊云科技,敦煌网完成了从 Apache Impala + Apache Kudu 存算耦合架构向 Apache Spark on Amazon EMR + Hudi + Amazon S3 智能湖仓架构的升级改造,实现海量数据的入湖,并与合作伙伴滴普科技共同构建了符合敦煌网当前业务需求和未来发展的新一代端到端大数据分析平台,确保其数据和应用准确无误地云上迁移。
智能湖仓架构替换存算耦合架构,数据无缝流转
智能湖仓以 Amazon S3 作为中心数据湖,实现数据的集中存储和管理,并针对不同的场景,选择最具性价比的计算引擎,使数据能够在湖仓和计算引擎之间无缝流转,而在入湖方式上则采用基于 Hudi 实现 CDC (Change Data Capture 变更数据获取) 数据入湖。在构建智能湖仓过程中还进行了多项优化调整,包括:
- 计算优化 —— 以基于 Amazon EMR 的 Apache Spark SQL 替换原来的基于本地 IDC 部署的 Hive on Spark,并完成 Spark2 到 Spark3 的升级,亚马逊云科技协助实现数据字段的适配和调整,使计算性能进一步提升;
- 存储优化 —— 通过 Amazon S3、Amazon Elastic MapReduce (Amazon EMR) 实现存算分离和智能分层。敦煌网的搜索推荐、用户召回等业务场景,需要实时多任务的计算调度,相比传统 IDC 的自建存储,Amazon S3 更具成本优势,EMR File System (EMRFS) 可以无缝和 Amazon S3 智能分层集成,保证在高性能前提下,进一步节省存储成本;
- 基于 Apache Hudi on Amazon EMR 的准实时数据湖改造 —— 基于本地 IDC 部署的大数据集群,每天会将 Kudu 数据通过 Impala 导出到 HDFS,Kudu 是依赖磁盘的存储引擎,存储、运维成本较高,且仅是数据的一个中间层,很难满足业务场景对实时数据分析的要求。为了实现准实时、分钟级别延迟写入,敦煌网选择了 Hudi,并希望通过 Amazon EMR 完成准实时数据湖架构升级,Amazon EMR 上的 Hudi 包与 Spark 已进行了代码适配,因此 Apache Hudi on Amazon EMR 成为了合适的选择,在架构的改造升级上能够实现无缝支持;
- BI 分析改进 —— 电商经常会通过 RFM 模型(客户价值模型)做用户召回、购物券分发等营销活动,需要进行大量的数据分析工作, 云原生数据仓库 Amazon Redshift 很好地满足了敦煌网 BI 报表的日常收藏和查询需求。其中,Redshift Spectrum 可直接做外表查询,Redshift CC Scalling 支持几乎无限的并发用户和并发查询。刘文涛表示:“此前我们的报表数据查询周期是 T+1、T+2,现在可以实现 T+0 的准实时分析和回归,查询效率提升了 100%。“
敦煌网基于亚马逊云科技的架构示意图
“快、准、全、稳” 的端到端数据分析平台,响应业务快速发展
为了更好地分析数据并获取洞察,亚马逊云科技为敦煌网建设大数据云底座的同时,也协调滴普科技共同打造匹配跨境电商体系的端到端数据分析平台,以解决电商数据源多样、数据量大、数据类型多的管理难题,并在云上借助 Amazon S3 统一数据湖与 Amazon EMR 统一的数据框架服务,完成数据的快速采集、存储、安全管理与大数据处理,“快、准、全、稳 ” 地帮助敦煌网全面整合从数据源到数据分析以及数据价值实现的完整链路。
日夜攻关突破,完成 1000 + 作业、PB 级全量数据迁移上云
伴随组件生产环境、大数据平台部署与调配完成,数据入湖和云上迁移提上日程。根据规划,敦煌网需要将源表 8 万张合并到 Hudi 900 张表,并且实现每天增量 5TB 数据入湖;此外,还要完成 PB 级全量数据、3000 余张数据表、1000 多个计划任务以及 400 多个业务报表的上云迁移,这在整个业界都是无经验可循的复杂业务场景。
亚马逊云科技团队与敦煌网和滴普科技的工程师们日夜攻关突破,最终成功实现数据入湖的目标,并在 3 个月内完成数据和应用的准确无误上云迁移。
驾驭云支出,实现精确的成本管控
敦煌网对成本控制非常严格,亚马逊云科技多次为其提供系统性的成本优化培训服务,敦煌网也在借助 CFM (云上财务管理) 产品有效观察产品使用率,通过合理配置 RI、Saving Plan 进行最佳成本控制,并且从数据层面完善自动化的生命周期管理,在计算层面规划数据任务调度分布。如,利用 Amazon EMR 实现业务高峰期生产环境资源的扩展,并可在集群空闲时自动实现缩放节点和关闭集群,将此前高昂的基础设施成本转化为更灵活的业务运营成本。
业务成果 | 数据驱动业务,实现 T+0 近实时分析,提升 40% 开发效率
“通过使用像 Amazon EMR、Amazon Redshift 这样的云原生数据分析组件,我们构建了‘更准、更全、更快、更稳’的端到端数据分析平台,使大数据的 IT 维护成本降低 30%,开发效率提升 40%,解决了算力瓶颈,让我们可以把更多精力和资源投入到提升数据化运营能力和增长洞察上。” 刘文涛如是说。
搭建智能湖仓架构后,敦煌网数据集群的运行硬件和维护成本降低了 30%,解决了 IDC 大数据集群无法通过扩展节点来增加算力、存储和网络流量的瓶颈问题。
电商是一种季节性很强的业务,如黑五、双十一流量会暴涨,潮汐效应明显。此前,为了满足欧美市场商家 “圣诞季 “的采购需求,敦煌网每年 8 月底就提前部署设备应对流量洪峰,之后则会变成冗余资源。同时,电商也是深度数据驱动行业,多种 BI 处理、数据分析需求高度依赖数仓查询。Amazon EMR 一次性集群和 Amazon Redshift 的定时、分钟、秒级多种动态弹性扩缩容方式,能够很好满足业务负载的周期起伏,提高数据查询效率达到 100%。
敦煌网的数据架构完成云原生的改造和升级后,实现了数据实时入湖、存算分离架构,能够支撑未来更多实时和离线业务场景需求,如 AIGC、实时用户画像搜索推荐等。而端到端数据分析平台的上线,使数据开发、测试、发布、运维流程规范化,提高了 40% 的开发效率,数据资产管理的数据地图、数据血缘等功能提高了数据探查效率,有效降低了数据使用沟通成本。此外,东西向隔离、表级别权限细分这些线下管理难以实现的安全功能,通过亚马逊云科技解决方案,敦煌网也将权限管理细化到了极致。
未来,敦煌网希望继续与亚马逊云科技合作,比如,利用专为电商行业构建的个性化推荐服务 Amazon Personalize 实现千人千面的产品推荐,使用 Amazon Interactive Video Service(Amazon IVS)试水数字人直播业务,并尝试 AI 一键选品、AI 一键生成直播话术、个性直播间装修、直播间选品等功能,为客户提供更灵活的购物服务。
关于敦煌网
敦煌网成立于 2004 年,是领先的全球中小零售商一站式贸易和服务平台。敦煌网以 “促进全球通商,成就创业梦想” 为使命,为跨境电商产业链上中小微企业提供店铺运营、流量营销、仓储物流、支付金融、客服风控等全链路赋能,帮助中国制造对接全球采购。目前已经拥有 254 万以上累计注册供应商,年均在线产品数量超过 3400 万,累计注册买家超过 5960 万。
使用的亚马逊云科技服务
Amazon EMR
Amazon EMR 是行业领先的云大数据解决方案,适用于使用开源框架(如 Apache Spark、Apache Hive、Presto)进行 PB 级数据处理、交互分析和机器学习。
Amazon S3
Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。
Amazon Redshift
Amazon Redshift 使用 SQL 在数据仓库、运营数据库和数据湖间分析结构化和半结构化数据,使用 AWS 设计的硬件和机器学习在任意规模提供最佳性价比。
Amazon Personalize
Amazon Personalize 允许开发人员使用机器学习(ML)快速构建和部署精选推荐,并实现大规模智能用户细分。Amazon Personalize 可以根据您的个人需求进行定制,因此,您可以在适当的时间和地点提供适当的客户体验。
行动起来
无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。