适用于 Apache Spark 的 Amazon Redshift 集成

构建可在 Amazon Redshift 中读取和写入数据的 Apache Spark 应用程序

适用于 Apache Spark 的 Amazon Redshift 集成简化并加速从 AWS 分析服务(例如 Amazon EMR、AWS Glue 和 Amazon SageMaker)访问 Amazon Redshift 数据的 Apache Spark 应用程序。使用 Amazon EMR、AWS Glue 和 SageMaker,您可以快速构建读取和写入 Amazon Redshift 数据仓库的 Apache Spark 应用程序,而不会影响性能或事务一致性。此外,适用于 Apache Spark 的 Amazon Redshift 集成使用基于 AWS Identity and Access Management(IAM)的凭证来提升安全性。使用适用于 Apache Spark 的 Amazon Redshift 集成,无需手动设置和维护未经认证的第三方连接器版本。您可以使用 Amazon Redshift 中的数据在数秒钟内开始 Apache Spark 任务。这种新的集成可提高使用 Amazon Redshift 数据的 Apache Spark 应用程序的性能。

适用于 Apache Spark 的 Amazon Redshift 集成(1:24)

优势

使用 Amazon Redshift 数据增强 Apache Spark 分析

通过在数据仓库中读取和写入数据,扩展数据来源的范围,这些数据来源可用于 Amazon EMR、AWS Glue 或 SageMaker 中运行的丰富分析和机器学习(ML)应用程序。

以最少设置访问 Amazon Redshift 数据

设置未经认证的连接器和 JDBC 驱动程序的过程繁琐且通常需要手动,简化该过程并减少分析和机器学习任务的准备时间。

使用经 Amazon 认证的连接器增强性能和安全性

使用数种下推功能(例如排序、聚合、限制、加入和标量功能),以便仅从 Amazon Redshift 数据仓库移动相关数据。 

工作原理

使用 AWS 服务构建可读取和写入 Amazon Redshift 数据仓库的 Apache Spark 应用程序。
该图显示如何使用 AWS 服务构建可读取和写入 Amazon Redshift 数据仓库的 Apache Spark 应用程序。

使用案例

构建 ETL、机器学习和交互式应用程序

使用基于 Apache Spark 的 AWS 分析服务在 Java、Scala 和 Python 中创建 Apache Spark 应用程序。

连接到 Amazon Redshift 数据仓库

使用 Amazon EMR、AWS Glue、SageMaker 以及 AWS 分析和机器学习服务在 Amazon Redshift 中读取和写入数据。

在数秒钟内运行查询

使用 Amazon EMR 或 AWS Glue 从您的 Apache Spark 任务或笔记本中获取数据帧代码,并连接到 Amazon Redshift。 

可供立即使用的已获 AWS 认证的连接器

简化过程,无需安装或测试,并且具有增强的安全性(基于 IAM 的凭证)和运维下推以及高性能的 Parquet 文件格式。

客户

Huron

Huron 是一家全球专业服务公司,致力于制定完美策略,优化运维,加速数字化转型,以及赋能企业及其员工拥有未来,从而携手客户将可能付诸实践。

“我们赋能工程师使用 Python 和 Scala 通过 Apache Spark 构建他们的数据管道和应用程序。我们想要一个量身定制的解决方案,以简化运维并为客户提供更快、更高效的交付,这正是新的适用于 Apache Spark 的 Amazon Redshift 集成为我们提供的。”

Huron Consulting 数据架构师经理 Corey Johnson

GE Aerospace

GE Aerospace 是一家商用和军用飞机喷气发动机、零部件和系统的全球供应商。自第一次世界大战以来,该公司一直在设计、开发和制造喷气发动机。

“GE Aerospace 使用 AWS 分析和 Amazon Redshift 赋能关键业务见解,以推动重大业务决策。借助支持从 Amazon S3 自动复制,我们可以构建更简单的数据管道,以将数据从 Amazon S3 移动到 Amazon Redshift。这提升了我们数据产品团队的能力,助力加速访问数据并向最终用户提供见解。我们将更多精力专注于通过数据增加价值,更少精力放在集成上。”

GE Aerospace 高级首席数据架构师 Alcuin Weidus

Goldman Sachs

Goldman Sachs Group, Inc. 是一家全球领先的金融机构,提供广泛的金融服务,涵盖投资银行、证券、投资管理和消费者银行,服务庞大且多元化的客户群体,包括公司、金融机构、政府和个人。 

“在 Goldman Sachs,我们专注于为所有用户提供自助服务式数据访问。我们的协作范围涵盖整个金融服务行业,通过开源数据管理和治理平台 Legend,我们赋能用户开发以数据为中心的应用程序,并获得数据驱动型见解。 借助适用于 Apache Spark 的 Amazon Redshift 集成,我们的数据平台团队将能够以最少的手动步骤(允许零代码 ETL)访问 Amazon Redshift 数据,从而提高我们的能力,便于工程师在收集完整和及时的信息时更容易专注于完善他们的工作流。我们希望提升应用程序的性能和安全性,因为我们的用户现在可以轻松访问 Amazon Redshift 中的最新数据。”

Goldman Sachs 首席数据官 Neema Raphael

资源

观看有关适用于 Apache Spark 的 Amazon Redshift 集成的技术视频。

阅读关于适用于 Apache Spark 的 Amazon Redshift 集成的博文。

阅读关于适用于 Apache Spark 的 Amazon Redshift 集成的技术管理指南。

Amazon Redshift 入门

什么是 Amazon Redshift?
什么是 Amazon Redshift?

通过此 Amazon Redshift 管理指南了解 Amazon Redshift,以开始使用完全托管在云中的 PB 级数据仓库服务。

了解更多 »
了解使用 AWS Glue 将数据移入和移出 Amazon Redshift
AWS Glue 上的 Spark Amazon Redshift 连接器

使用 AWS Glue 提取、转换和加载(ETL)作业将数据移入和移出 Amazon Redshift。

了解更多 »
支持 AWS Glue 的 JDBC 驱动程序版本
支持 AWS Glue 的 JDBC 驱动程序版本

了解 AWS Glue 中 ETL 的连接类型和选项。

了解更多 »