Apache Spark 適用的 Amazon Redshift 整合

建置可從 Amazon Redshift 讀取和寫入資料的 Apache Spark 應用程式

為何需要 Apache Spark 適用的 Amazon Redshift 整合?

Apache Spark 適用的 Amazon Redshift 整合,在 Apache Spark 應用程式從 Amazon EMR、AWS Glue 和 Amazon SageMaker 等 AWS 分析服務存取 Amazon Redshift 資料時,可簡化程序並加快速度。您可以使用 Amazon EMR、AWS Glue 和 SageMaker,快速建置 Apache Spark 應用程式來讀取和寫入您的 Amazon Redshift 資料倉儲,而不會影響效能或交易一致性。另外,Apache Spark 適用的 Amazon Redshift 整合,還使用以 AWS Identity Access and Management (IAM) 為基礎的憑證來提升安全性。使用 Apache Spark 適用的 Amazon Redshift 整合,不必手動設定及維護未經認證版本的第三方連接器。您只需要幾秒鐘即可使用 Amazon Redshift 中的資料開始 Apache Spark 作業。這種新的整合可為使用 Amazon Redshift 資料的 Apache Spark 應用程式提升效能。

Amazon Redshift 的優勢

透過在您的資料倉儲中讀取和寫入資料,您在 Amazon EMR、AWS Glue 或 SageMaker 中執行的豐富分析與機器學習 (ML) 應用程式中,可用的資料來源範圍得以擴展。
在設定未經認證的連接器和 JDBC 驅動程式時通常需要手動的繁瑣程序,此整合可精簡這些程序,進而減少分析和 ML 作業的準備時間。
使用多種下推功能,例如排序、彙總、限制、結合和純量函式,以便僅從 Amazon Redshift 資料倉儲中移動相關資料。

運作方式

使用 AWS 服務建置可讀取和寫入 Amazon Redshift 資料倉儲的 Apache Spark 應用程式。
圖表顯示如何使用 AWS 服務建置可讀取和寫入 Amazon Redshift 資料倉儲的 Apache Spark 應用程式。

使用案例

使用以 Apache Spark 為基礎的 AWS 分析服務在 Java、Scala 和 Python 中建立 Apache Spark 應用程式。
使用 Amazon EMR、AWS Glue、SageMaker 以及 AWS 分析和 ML 服務,在 Amazon Redshift 中讀取和寫入資料。
使用 Amazon EMR 或 AWS Glue,從您的 Apache Spark 任務或筆記本中取得資料框架代碼,並連接 Amazon Redshift。
可精簡流程(無需安裝或測試),增強安全性(採用以 IAM 為基礎的憑證),以及操作下推功能和 Parquet 檔案格式來提升效能。

客戶

Huron

Huron 是一間全球專業服務公司,與客戶合作制定合理的策略、最佳化營運、加速數位轉型,並讓企業及其員工掌控自己的未來,進而將潛在可能性付諸實踐。

「我們授權工程師使用 Python 和 Scala 透過 Apache Spark 建置資料管道和應用程式。我們需要一個量身定製的解決方案來簡化操作並為我們的客戶提供更快速高效的服務,而這都多虧我們新採用了 Apache Spark 適用的 Amazon Redshift 整合。」

Huron Consulting 資料架構經理 Corey Johnson

奇異航空

奇異航空是一家全球供應商,提供商用和軍用飛機噴射發動機、零件和系統。該公司自第一次世界大戰以來即一直在設計、開發和製造噴射發動機。

「奇異航空使用 AWS 分析和 Amazon Redshift 來實現推動重要業務決策的關鍵業務洞察力。由於支援從 Amazon S3 自動複製的功能,我們得以建置更簡單的資料管道,將資料從 Amazon S3 移動到 Amazon Redshift。如此可加快我們的資料產品團隊存取資料以及向使用者提供深入解析的能力。我們得以將更多時間用於透過資料來增加價值,減少在整合方面花費的時間。」

奇異航空資深首席資料架構師 Alcuin Weidus

Goldman Sachs

Goldman Sachs Group, Inc. 是領先業界的全球金融機構,為包括企業、金融機構、政府和個人在內的龐大多元化客群,提供涵蓋投資銀行、證券、投資管理和消費銀行業務的廣泛金融服務。 

「我們專注於為 Goldman Sachs 的所有使用者提供存取資料的自助服務。我們提供開放原始碼資料管理和監管平台 Legend,讓使用者能夠開發以資料為中心的應用程式,並在我們展開跨金融服務產業合作時取得資料驅動型深入解析。 有了適用於 Apache Spark 的 Amazon Redshift 整合,我們的資料平台團隊能夠以最少的手動步驟存取 Amazon Redshift 資料,實現零代碼 ETL,進而提高我們的能力,讓工程師能夠收集完整的即時資訊,更容易專注於完善他們的工作流程。我們預期可以改進應用程式效能和提高安全性,因為我們的使用者現在可以輕鬆存取 Amazon Redshift 中的最新資料。」

Goldman Sachs 首席資料長 Neema Raphael