Zero ETL —— 数据工程师的未来照进现实
ETL 是将业务系统的数据经过提取(Extract)、转换清洗(Transform)和加载(Load)到数据仓库、大数据平台的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起。ETL相关工作量可能会占据数据工程师 70% 甚至更多。到了大数据时代,这种痛苦不减反增:
- 市面上的 ETL 工具多,代表选择多,那么第一步,ETL 工具选型就是个难题。
- ETL 任务的多少,往往和项目的复杂度呈 “指数级正相关”,越复杂的项目,调度任务越多。
Zero ETL —— 数据工程师的未来照进现实
ETL 是将业务系统的数据经过提取(Extract)、转换清洗(Transform)和加载(Load)到数据仓库、大数据平台的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起。ETL相关工作量可能会占据数据工程师 70% 甚至更多。到了大数据时代,这种痛苦不减反增:
- 市面上的 ETL 工具多,代表选择多,那么第一步,ETL 工具选型就是个难题。
- ETL 任务的多少,往往和项目的复杂度呈 “指数级正相关”,越复杂的项目,调度任务越多。
白皮书
Zero ETL — 数据工程师的未来照进现实
Zero ETL 是数据集成的未来,亚马逊云科技一直在这个领域进行着投入,本白皮书中将会介绍亚马逊云科技已上线与已发布的 Zero ETL 特性,及其技术架构和可以解决的问题,并附有多个行业客户真实案例供参考。
游戏数据湖最佳实践
许多客户都在亚马逊云科技上运行其数字游戏。所有这些客户都做出了独特的设计选择,使他们能够在亚马逊 云科技上运行最快、最复杂且视觉效果惊人的游戏。本白皮书概述了在亚马逊云科技云上为游戏构建数据湖的 最佳实践,并提供了一个参考架构来指导组织交付这些复杂的系统。
现代流式数据分析架构
流式数据需要在组件之间以低延迟流动,以支持实时决策。本白皮书帮助云架构师、 数据科学家和开发人员设计和构建现代数据流架构,这些架构可以使用亚马逊云科技流服务来完成构建。
数据一体化融合解决方案——智能湖仓 2.0
打破数据孤岛,通过智能湖仓,让数据实现跨组织、跨部门、跨产品流动,实现数据一体化融合。企业需要全面了解其业务的真实情况,才能让数据帮助企业在整个价值流程之中创造价值。数据一体化融合需要让企业打破数据孤岛,并以一种一体化的方式实现数据的共享与安全访问,以解锁不同企业用户和不同目的的数据价值。
那么,什么是 Zero ETL?
亚马逊云科技发布了多项全新的集成功能,帮助客户在亚马逊云科技上迈向一个 “Zero-ETL 的未来”。亚马逊云科技一直在投入开发基于 Zero-ETL 理念的功能,例如 Amazon Aurora ML 和 Amazon Redshift ML,让客户可以在机器学习用例受益于 Amazon SageMaker 的功能,而无需在不同服务间迁移数据。还有流式服务(如 Amazon Kinesis 和 Amazon MSK)向数据存储服务(如 Amazon S3)无缝注入数据,从而助力客户及时分析数据。同事,我们也发布了更多新的 Zero ETL 功能助力客户更快、更轻松、更经济的实践 “数据一体化融合”。
重点介绍
-
Amazon Aurora zero-ETL to Amazon Redshift 助力 PB 级分析交易数据进行近实时分析
企业希望更好地了解核心业务驱动因素,制定战略以增加销售额、降低成本、获得竞争优势,因此,近乎实时地从购买、预订和金融交易等交易数据中获得洞察的需求不断增加。
然而,数据管道构建成本高昂且难以管理,需要开发人员编写自定义代码,并且持续管理基础设施以确保其按需扩展。一些公司甚至需要投入整个团队以完成这项工作。此外,用这种方式准备好数据可能需要几天的时间,而且间歇性的数据传输错误会影响客户获得稍纵即逝的洞察,甚至错失商机。
图例:构建一个 ETL 工作流Amazon Aurora zero-ETL to Amazon Redshift 功能,交易数据在写入 Amazon Aurora 后的几秒钟内可以自动连续复制,使其在 Amazon Redshift 中即时可用。一旦数据在 Amazon Redshift 中可用,客户立即可以开始分析数据,并且应用数据共享和 Amazon Redshift ML 等高级功能获得全面的预测性洞察。客户可以将数据从多个 Amazon Aurora 数据库集群复制到同一个 Amazon Redshift 实例,跨多个应用程序获得洞察。如此,客户可以使用 Amazon Aurora 支持交易数据库需求,使用 Amazon Redshift 进行分析,无需构建或维护复杂的数据管道。
图:一键部署 Zero ETL -
Amazon Redshift 系列创新均是 Zero ETL 的实践
发布于 re:Invent 2012 年的首个云原生数据仓库 Amazon Redshift 已经实践了 10 年的创新之路,Amazon Redshift Serverless 于今年上线,在 Zero ETL 方面,2017 年发布的 Amazon Redshift Spectrum 联邦查询即是一个经典的特性,无需数据移动,用户即可使用 Spectrum 来访问数据湖 Amazon S3 中的数据,而今年 Redshift 的创新还在加速。
图:一图了解 Amazon Redshift 的创新Amazon Redshift 支持 Amazon S3 自动复制(预览版)
借助这项新功能,Amazon Redshift 会将到达您指定的 Amazon Simple Storage Service (Amazon S3) 位置的文件自动加载到您的数据仓库中。这些文件可以使用 Amazon Redshift 复制命令支持的任何格式,例如 CSV、JSON、Parquet 和 Avro。这样,您就无需手动或重复运行复制过程。Amazon Redshift 可自动提取文件并负责幕后数据的加载步骤。Amazon Redshift streaming ingestion 流式数据接入功能已上线,直接让流式数据接入数据仓库,这是敏捷打造云原生实时数仓的必要功能,让用户可以轻松的探索实时分析场景,基于历史数据的实时预测、反欺诈等场景。
Amazon Redshift Integration for Apache Spark 功能
帮助客户在使用亚马逊云科技的分析和机器学习服务时可以更快更轻松地通过 Apache Spark 应用程序访问到 Redshift 上的数据。开发人员可以轻松地使用亚马逊云科技支持的分析和机器学习服务,在 Amazon Redshift 数据上构建和运行 Apache Spark 应用程序,你可以用 10 倍更快的速度去进入 Amazon Apache Spark 来做你的这些操作,你可以快速而敏捷的实现分析与机器学习。
-
超过百种外部数据连接,助力构建 Zero ETL 未来
纵观全局,亚马逊云科技数据服务已经可以连接超过 100 种外部数据源,像 Adobe,Salesforce 等各类 SaaS 应用,也包括了各类 on-premise 数据源类型,因此您能更全面的利用所有数据的力量。
1、大多数环境下,数据分散在多个系统和数据存储中(无论是本地还是在云中),Amazon AppFlow 在本地系统和应用程序、SaaS 应用程序和 AWS 服务之间提供双向数据集成。使用低代码或无代码、经济实惠的解决方案,只需单击几下,Amazon AppFlow 即可在 Salesforce、SAP 或 ServiceNow 等 SaaS 应用程序与您的 S3 数据湖和 Redshift 之间安全地传输数据,帮助客户打破数据孤岛,随着业务需求的变化,该解决方案可在几分钟内轻松重新配置。
- 营销连接器(例如,Facebook 广告、谷歌广告、Instagram 广告、领英广告)。
- 用于客户服务和参与的连接器(例如 MailChimp、Sendgrid、Zendesk Sell 或 Chat 等)。
- 业务运营(Stripe、QuickBooks 在线和 GitHub)。
在 re:Invent 2022 上我们发布了新增 22 个新的连接器,现在 AppFlow 已经支持超过 50 种连接器。
2、Amazon SageMaker Data Wrangler 支持基于 AppFlow 的 SaaS 数据源
从今天开始,您可以在 Amazon SageMaker data Wrangler 中聚合 ML 的外部 SaaS 应用程序数据,为 ML 准备数据。数据源通过 AppFlow 注册到 AWS Glue data Catalog 后,您就可以使用 data Wrangler SQL explorer 浏览这些数据源中的表和模式。该功能使用 Amazon AppFlow 在 SaaS 应用程序和 SageMaker data Wrangler 之间提供无缝数据集成。
图例:Amazon SageMaker Data Wrangler 数据源选择
那么,什么是 Zero ETL?
亚马逊云科技发布了多项全新的集成功能,帮助客户在亚马逊云科技上迈向一个 “Zero-ETL 的未来”。亚马逊云科技一直在投入开发基于 Zero-ETL 理念的功能,例如 Amazon Aurora ML 和 Amazon Redshift ML,让客户可以在机器学习用例受益于 Amazon SageMaker 的功能,而无需在不同服务间迁移数据。还有流式服务(如 Amazon Kinesis 和 Amazon MSK)向数据存储服务(如 Amazon S3)无缝注入数据,从而助力客户及时分析数据。同事,我们也发布了更多新的 Zero ETL 功能助力客户更快、更轻松、更经济的实践 “数据一体化融合”。
重点介绍
-
Amazon Aurora zero-ETL to Amazon Redshift 助力 PB 级分析交易数据进行近实时分析
企业希望更好地了解核心业务驱动因素,制定战略以增加销售额、降低成本、获得竞争优势,因此,近乎实时地从购买、预订和金融交易等交易数据中获得洞察的需求不断增加。
然而,数据管道构建成本高昂且难以管理,需要开发人员编写自定义代码,并且持续管理基础设施以确保其按需扩展。一些公司甚至需要投入整个团队以完成这项工作。此外,用这种方式准备好数据可能需要几天的时间,而且间歇性的数据传输错误会影响客户获得稍纵即逝的洞察,甚至错失商机。
图例:构建一个 ETL 工作流Amazon Aurora zero-ETL to Amazon Redshift 功能,交易数据在写入 Amazon Aurora 后的几秒钟内可以自动连续复制,使其在 Amazon Redshift 中即时可用。一旦数据在 Amazon Redshift 中可用,客户立即可以开始分析数据,并且应用数据共享和 Amazon Redshift ML 等高级功能获得全面的预测性洞察。客户可以将数据从多个 Amazon Aurora 数据库集群复制到同一个 Amazon Redshift 实例,跨多个应用程序获得洞察。如此,客户可以使用 Amazon Aurora 支持交易数据库需求,使用 Amazon Redshift 进行分析,无需构建或维护复杂的数据管道。
图:一键部署 Zero ETL -
Amazon Redshift 系列创新均是 Zero ETL 的实践
发布于 re:Invent 2012 年的首个云原生数据仓库 Amazon Redshift 已经实践了 10 年的创新之路,Amazon Redshift Serverless 于今年上线,在 Zero ETL 方面,2017 年发布的 Amazon Redshift Spectrum 联邦查询即是一个经典的特性,无需数据移动,用户即可使用 Spectrum 来访问数据湖 Amazon S3 中的数据,而今年 Redshift 的创新还在加速。
图:一图了解 Amazon Redshift 的创新Amazon Redshift 支持 Amazon S3 自动复制(预览版)
借助这项新功能,Amazon Redshift 会将到达您指定的 Amazon Simple Storage Service (Amazon S3) 位置的文件自动加载到您的数据仓库中。这些文件可以使用 Amazon Redshift 复制命令支持的任何格式,例如 CSV、JSON、Parquet 和 Avro。这样,您就无需手动或重复运行复制过程。Amazon Redshift 可自动提取文件并负责幕后数据的加载步骤。Amazon Redshift streaming ingestion 流式数据接入功能已上线,直接让流式数据接入数据仓库,这是敏捷打造云原生实时数仓的必要功能,让用户可以轻松的探索实时分析场景,基于历史数据的实时预测、反欺诈等场景。
Amazon Redshift Integration for Apache Spark 功能
帮助客户在使用亚马逊云科技的分析和机器学习服务时可以更快更轻松地通过 Apache Spark 应用程序访问到 Redshift 上的数据。开发人员可以轻松地使用亚马逊云科技支持的分析和机器学习服务,在 Amazon Redshift 数据上构建和运行 Apache Spark 应用程序,你可以用 10 倍更快的速度去进入 Amazon Apache Spark 来做你的这些操作,你可以快速而敏捷的实现分析与机器学习。
-
超过百种外部数据连接,助力构建 Zero ETL 未来
纵观全局,亚马逊云科技数据服务已经可以连接超过 100 种外部数据源,像 Adobe,Salesforce 等各类 SaaS 应用,也包括了各类 on-premise 数据源类型,因此您能更全面的利用所有数据的力量。
1、大多数环境下,数据分散在多个系统和数据存储中(无论是本地还是在云中),Amazon AppFlow 在本地系统和应用程序、SaaS 应用程序和 AWS 服务之间提供双向数据集成。使用低代码或无代码、经济实惠的解决方案,只需单击几下,Amazon AppFlow 即可在 Salesforce、SAP 或 ServiceNow 等 SaaS 应用程序与您的 S3 数据湖和 Redshift 之间安全地传输数据,帮助客户打破数据孤岛,随着业务需求的变化,该解决方案可在几分钟内轻松重新配置。
- 营销连接器(例如,Facebook 广告、谷歌广告、Instagram 广告、领英广告)。
- 用于客户服务和参与的连接器(例如 MailChimp、Sendgrid、Zendesk Sell 或 Chat 等)。
- 业务运营(Stripe、QuickBooks 在线和 GitHub)。
在 re:Invent 2022 上我们发布了新增 22 个新的连接器,现在 AppFlow 已经支持超过 50 种连接器
2、Amazon SageMaker Data Wrangler 支持基于 AppFlow 的 SaaS 数据源
从今天开始,您可以在 Amazon SageMaker data Wrangler 中聚合 ML 的外部 SaaS 应用程序数据,为 ML 准备数据。数据源通过 AppFlow 注册到 AWS Glue data Catalog 后,您就可以使用 data Wrangler SQL explorer 浏览这些数据源中的表和模式。该功能使用 Amazon AppFlow 在 SaaS 应用程序和 SageMaker data Wrangler 之间提供无缝数据集成。
图例:Amazon SageMaker Data Wrangler 数据源选择
客户故事
Adobe
从个人和小型企业到政府机构和全球品牌,Adobe 使每个人都能创造和交付卓越的数字体验。“Adobe 的使命是通过数字体验改变世界,在当今世界,这意味着拥有能够提供深刻和实时洞察的分析工具。” Adobe Acrobat Sign 首席科学家 Jack Lull 表示,“作为 Amazon Aurora 的客户,我们非常欢迎 Amazon Redshift 集成的 Amazon Aurora zero-ETL 功能。它将为我们不断扩大的 Acrobat Sign 客户群提供新的洞察和更快的分析能力,并随着他们用量的增加而同步增长。所有这些都不需要我们自己的团队做日常维护。”
Infor
Infor 是商业云软件和特定行业 ERP 解决方案的全球领导者。“在 Infor,我们使用亚马逊云科技构建和部署现代化的工具,帮助客户转型其业务并加速创新,其中包括我们最新提供的面向客户行业云数据的托管数据仓库服务,以帮助客户通过高级分析和机器学习更快地做出决策。”Infor 云服务高级副总裁 Jim Plourde 表示,“我们很高兴使用 Amazon Redshift 集成的 Amazon Aurora zero-ETL 功能,它将让 Amazon Aurora 中的交易数据近乎实时地提供给 Amazon Redshift,减轻我们的运营负担。现在,我们既可以受益于 Amazon Aurora 用作关系数据库管理系统的性能,又可以轻松利用 Amazon Redshift 的分析和机器学习功能实现新的托管数据仓库服务。”
高盛集团
高盛集团是一家领先的全球金融机构,为包括企业、金融机构、政府和个人在内的庞大而多元化的客户群提供投资银行、证券、投资管理和消费者银行业务等广泛的金融服务。 “我们的重点是为高盛内所有用户提供自助式数据访问。当在整个金融服务行业开展协作时,我们通过开源数据管理和治理平台 Legend 可以助力用户开发以数据为中心的应用程序,并且获得数据驱动的洞察。” 高盛首席数据官 Neema Raphael 表示,“通过面向 Apache Spark 的 Amazon Redshift 集成功能,我们的数据平台团队以最少的定制化操作就可以访问 Amazon Redshift 数据,实现零代码 ETL,使我们更有能力在工程师收集完整及时的信息时,让他们更容易专注于完善其工作流。由于我们的用户现在可以轻松访问 Amazon Redshift 中的最新数据,我们将能实现更高的应用程序性能和更强的安全性。”