亚马逊AWS官方博客

Amazon RDS for MySQL 与 Amazon Redshift 的零 ETL 集成现已全面推出,可实现近乎实时的分析功能



零 ETL 集成有助于统一跨应用程序和数据来源的数据,以获得整体洞见并打破数据孤岛。零 ETL 集成提供了一个完全托管、无需代码、近乎实时的解决方案,可在数据写入 Amazon Relational Database Service (Amazon RDS) for MySQL 后几秒钟内,在 Amazon Redshift 中提供数千兆字节的事务数据。这样就您无需创建自己的 ETL 作业,从而简化了数据摄取,减少了运营开销,并有可能降低总体数据处理成本。去年,我们宣布 Amazon Aurora MySQL 兼容版与 Amazon Redshift 的零 ETL 集成已全面推出, Amazon Aurora PostgreSQL 兼容版、Amazon DynamoDB 和 RDS for MySQL 也已推出预览版。

我很高兴地宣布,搭载 Amazon Redshift 的 Amazon RDS for MySQL 零 ETL 现已全面可用。此版本还包括一些新功能,如数据筛选、支持多个集成以及在 AWS CloudFormation 模板中配置零 ETL 集成的功能。

在本篇文章中,我将介绍如何开始使用数据筛选和跨多个数据库和数据仓库整合数据。要获取如何设置零 ETL 集成的分步讲解说明,请参阅这篇博客文章,了解如何设置 Aurora MySQL 兼容版的集成,因为这篇文章为我们提供了非常相似的体验。

Data 筛选
大多数公司,无论规模大小,都可以从在 ETL 作业中添加筛选功能中获益。一个典型的使用案例是,只从生产数据库中选择需要复制的数据子集,从而降低数据处理和存储成本。另一种方法是将个人身份信息 (PII) 排除在报告数据集之外。例如,医疗保健企业在复制数据以建立分析近期患者病例的汇总报告时,可能希望排除敏感的患者信息。同样,一家电子商务商店可能希望向其营销部门提供客户消费模式,但不包括任何身份识别信息。相反,在某些情况下,您可能不希望使用筛选功能,例如在向欺诈检测团队提供数据时,他们需要近乎实时的所有数据来进行推断。以上只是几个例子,我鼓励大家多做尝试,发现可能适用于贵公司的不同用例。

有两种方法可以在零 ETL 集成中启用筛选:首次创建集成时或修改现有集成。无论采用哪种方式,您都可以在零 ETL 创建向导的 Source(来源)步骤中找到该选项。

用于添加数据筛选表达式的界面,以包含或排除数据库或表。

您可以通过输入筛选表达式来应用筛选条件,这些表达式可用于以 database*.table* 的格式在数据集中包括或排除数据库或表。您可以添加多个表达式,它们将按照从左到右的顺序进行评估。

如果您修改的是现有的集成,那么在您确认更改后,新的筛选规则将从此时开始适用,Amazon Redshift 会删除不再属于筛选规则的表。

如果您想深入了解,我建议您阅读这篇博文,该文章详细介绍了如何为 Amazon Aurora 零 ETL 集成设置数据筛选条件,因为步骤和概念都非常相似。

从单一数据库创建多个零 ETL 集成
现在,您还可以配置从单个 RDS for MySQL 数据库到多达 5 个 Amazon Redshift 数据仓库的集成。唯一的要求是,必须等第一个集成完成设置后再添加其他集成。

这样,您就可以与不同的团队共享事务性数据,同时让他们拥有自己的数据仓库,以满足其特定的使用情况。例如,您还可以将其与数据筛选结合使用,将不同的数据集从同一 Amazon RDS 生产数据库中分散到开发、暂存和生产 Amazon Redshift 集群。

另一个有趣的场景是,通过使用零 ETL 复制到不同的仓库来整合 Amazon Redshift 集群,这种方式可能非常有用。您还可以使用 Amazon Redshift 实体化视图来探索数据、支持 Amazon Quicksight 面板、共享数据、在 Amazon SageMaker 中训练作业等。

结论
RDS for MySQL 与 Amazon Redshift 的零 ETL 集成使您可以复制数据进行近乎实时的分析,而无需构建和管理复杂的数据管道。如今,它通常可以添加筛选表达式,以在复制的数据集中包含或排除数据库和表。现在,您还可以设置从同一源 RDS for MySQL 数据库到不同 Amazon Redshift 仓库的多个集成,或创建来自不同源的集成,以便将数据合并到一个数据仓库中。

此零 ETL 集成适用于 8.0.32 及更高版本的 RDS for MySQL、Amazon Redshift Serverless 和受支持的 AWS 区域中的 Amazon Redshift RA3 实例类型。

除了使用 AWS 管理控制台,您还可以通过 AWS 命令行界面(AWS CLI)和 boto3(适用于 Python 的 AWS SDK 官方版)之类的 AWS SDK 设置零 ETL 集成。

请参阅文档,了解有关使用零 ETL 集成的更多信息。

Matheus Guimaraes


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。