适用于 Apache Spark 的 Amazon Redshift 集成

构建可在 Amazon Redshift 中读取和写入数据的 Apache Spark 应用程序

为什么选择适用于 Apache Spark 的 Amazon Redshift 集成?

适用于 Apache Spark 的 Amazon Redshift 集成简化并加速从 AWS 分析服务(例如 Amazon EMR、AWS Glue 和 Amazon SageMaker)访问 Amazon Redshift 数据的 Apache Spark 应用程序。使用 Amazon EMR、AWS Glue 和 SageMaker,您可以快速构建读取和写入 Amazon Redshift 数据仓库的 Apache Spark 应用程序,而不会影响性能或事务一致性。此外,适用于 Apache Spark 的 Amazon Redshift 集成使用基于 AWS Identity and Access Management(IAM)的凭证来提升安全性。使用适用于 Apache Spark 的 Amazon Redshift 集成,无需手动设置和维护未经认证的第三方连接器版本。您可以使用 Amazon Redshift 中的数据在数秒钟内开始 Apache Spark 任务。这种新的集成可提高使用 Amazon Redshift 数据的 Apache Spark 应用程序的性能。

Amazon Redshift 的优势

通过在数据仓库中读取和写入数据,扩展数据来源的范围,这些数据来源可用于 Amazon EMR、AWS Glue 或 SageMaker 中运行的丰富分析和机器学习(ML)应用程序。
设置未经认证的连接器和 JDBC 驱动程序的过程繁琐且通常需要手动,简化该过程并减少分析和机器学习任务的准备时间。
使用数种下推功能(例如排序、聚合、限制、加入和标量功能),以便仅从 Amazon Redshift 数据仓库移动相关数据。

工作原理

使用 AWS 服务构建可读取和写入 Amazon Redshift 数据仓库的 Apache Spark 应用程序。
该图显示如何使用 AWS 服务构建可读取和写入 Amazon Redshift 数据仓库的 Apache Spark 应用程序。

使用案例

使用基于 Apache Spark 的 AWS 分析服务在 Java、Scala 和 Python 中创建 Apache Spark 应用程序。
使用 Amazon EMR、AWS Glue、SageMaker 以及 AWS 分析和机器学习服务在 Amazon Redshift 中读取和写入数据。
使用 Amazon EMR 或 AWS Glue 从您的 Apache Spark 任务或笔记本中获取数据帧代码,并连接到 Amazon Redshift。
简化过程,无需安装或测试,并且具有增强的安全性(基于 IAM 的凭证)和运维下推以及高性能的 Parquet 文件格式。

客户

Huron

Huron 是一家全球专业服务公司,致力于制定完美策略,优化运维,加速数字化转型,以及赋能企业及其员工拥有未来,从而携手客户将可能付诸实践。

“我们赋能工程师使用 Python 和 Scala 通过 Apache Spark 构建他们的数据管道和应用程序。我们想要一个量身定制的解决方案,以简化运维并为客户提供更快、更高效的交付,这正是新的适用于 Apache Spark 的 Amazon Redshift 集成为我们提供的。”

Huron Consulting 数据架构师经理 Corey Johnson

GE Aerospace

GE Aerospace 是一家商用和军用飞机喷气发动机、零部件和系统的全球供应商。自第一次世界大战以来,该公司一直在设计、开发和制造喷气发动机。

“GE Aerospace 使用 AWS 分析和 Amazon Redshift 赋能关键业务见解,以推动重大业务决策。借助支持从 Amazon S3 自动复制,我们可以构建更简单的数据管道,以将数据从 Amazon S3 移动到 Amazon Redshift。这提升了我们数据产品团队的能力,助力加速访问数据并向最终用户提供见解。我们将更多精力专注于通过数据增加价值,更少精力放在集成上。”

GE Aerospace 高级首席数据架构师 Alcuin Weidus

Goldman Sachs

Goldman Sachs Group, Inc. 是一家全球领先的金融机构,提供广泛的金融服务,涵盖投资银行、证券、投资管理和消费者银行,服务庞大且多元化的客户群体,包括公司、金融机构、政府和个人。 

“在 Goldman Sachs,我们专注于为所有用户提供自助服务式数据访问。我们的协作范围涵盖整个金融服务行业,通过开源数据管理和治理平台 Legend,我们赋能用户开发以数据为中心的应用程序,并获得数据驱动型见解。 借助适用于 Apache Spark 的 Amazon Redshift 集成,我们的数据平台团队将能够以最少的手动步骤(允许零代码 ETL)访问 Amazon Redshift 数据,从而提高我们的能力,便于工程师在收集完整和及时的信息时更容易专注于完善他们的工作流。我们希望提升应用程序的性能和安全性,因为我们的用户现在可以轻松访问 Amazon Redshift 中的最新数据。”

Goldman Sachs 首席数据官 Neema Raphael