AWS 宣布推出适用于 Apache Spark 的 Amazon Redshift 集成

发布于: Nov 29, 2022

适用于 Apache Spark 的 Amazon Redshift 集成帮助开发人员在 Amazon Redshift 数据上无缝构建和运行 Apache Spark 应用程序。如果您正在使用 AWS 分析和机器学习 (ML) 服务（比如 Amazon EMR、AWS Glue 和 Amazon Sagemaker），那么现在可以构建 Apache Spark 应用程序，从 Amazon Redshift 数据仓库中读写数据，而不会影响应用程序的性能或数据的事务一致性。适用于 Apache Spark 的 Amazon Redshift 集成基于现有的开源连接器项目构建，并增强了它的性能和安全性，帮助客户获得速度快 10 倍的应用程序性能。非常感谢本项目的最初贡献者，他们与我们的合作促使这一切成为可能。在进一步的增强体验过程中，我们将继续为开源项目做出贡献。

适用于 Apache Spark 的 Amazon Redshift 集成最大限度地减少了设置 spark-redshift 开源连接器的繁琐过程（且通常是手动过程），并减少了执行分析和 ML 任务所需的准备时间。您只需要指定到数据仓库的连接，就可以在几秒内开始使用基于 Apache Spark 的应用程序中的 Amazon Redshift 数据。您可以对排序、聚合、限制、联接和标量函数等操作使用几种下推功能，以便只有相关数据从 Amazon Redshift 数据仓库移动到正在使用的 Spark 应用程序。这样，您便能改进应用程序性能。还可以使用 AWS Identity Access and Management (IAM) 凭证连接到 Amazon Redshift，从而使您的应用程序更加安全。

若要开始，请转到 Amazon EMR 6.9、EMR Serverless 或 AWS Glue 4.0，在 Apache Spark 作业或笔记本中使用数据框架或 Spark SQL 代码连接到 Amazon Redshift 数据仓库，并在几分钟内开始运行查询。要了解更多信息，请参阅 Amazon Redshift 或适用于 Apache Spark 的 Amazon Redshift 集成。

AWS 宣布推出适用于 Apache Spark 的 Amazon Redshift 集成

终止对 Internet Explorer 的支持