发布于: Nov 29, 2022

Amazon EMR 发布 Amazon Redshift 与 Apache Spark 的集成。此集成有助于数据工程师构建和运行 Spark 应用程序,这些应用程序可以从 Amazon Redshift 集群使用和写入数据。从 Amazon EMR 6.9 开始,适用于 EMR - EC2、EKS 和 Serverless 的所有三种部署模型均提供此集成。

您可以使用此集成在 ETL 工作流程中构建可直接写入 Redshift 表的应用程序,或者将 Redshift 中的数据与其他来源中的数据相结合。开发人员可以将数据从 Redshift 表加载到 Spark 数据帧或者将数据写入 Redshift 表。开发人员不必费心下载开源连接器来连接到 Redshift。

通过适用于 Apache Spark 的 Amazon Redshift 集成,相较于现有的 Redshift-Spark 连接器,Amazon EMR 上访问 Redshift 数据的应用程序运行速度最多可提升 10 倍。它支持将联接、聚合、排序和标量函数等关系操作从 Spark 下推至 Redshift,从而改进查询性能。它支持基于 IAM 的角色启用单一登录功能,并与 AWS Secrets Manager 集成以安全地管理密钥。

适用于 Apache Spark 的 Amazon Redshift 集成在所有推出 Amazon EMR、EKS 上的 Amazon EMR 和 Amazon Serverless 上的 Amazon EMR 的区域中提供。在开始使用之前,请参阅我们的文档以了解 Amazon EMREKS 上的 Amazon EMRAmazon EMR Serverless