投稿日: Nov 29, 2022
Amazon Redshift の Apache Spark との統合により、デベロッパーは Amazon Redshift データに Apache Spark アプリケーションをシームレスに構築して実行できます。Amazon EMR、AWS Glue、Amazon SageMaker などの AWS の分析および機械学習 (ML) サービスを使用している場合、アプリケーションのパフォーマンスやデータのトランザクションの整合性を損なうことなく、Amazon Redshift データウェアハウスでの読み書きを行う Apache Spark アプリケーションを構築できるようになりました。 Amazon Redshift の Apache Spark との統合は既存のオープンソースコネクタプロジェクトに構築され、パフォーマンスとセキュリティを向上させ、アプリケーションパフォーマンスを最大で 10 倍高速化するのに役立ちます。この実現に向けてプロジェクトの初期からご協力いただいたコントリビューターの方々に感謝します。今後、さらに改良を加え、オープンソースプロジェクトへの AWS からの貢献を継続します。
Amazon Redshift が Apache Spark と統合されました。これにより、spark-redshift オープンソースコネクタを設定するという、面倒で手作業になることの多いプロセスを最小限に抑えられ、分析と ML タスクの準備に必要な時間が短縮されます。データウェアハウスへの接続を指定するだけで、Apache Spark ベースのアプリケーションから Amazon Redshift データの操作を数秒で開始できます。並べ替え、集計、制限、結合、スカラー関数などの操作にいくつかのプッシュダウン機能を使用することで、関連するデータのみを Amazon Redshift データウェアハウスからリソースを消費する Spark アプリケーションに移動できます。これにより、アプリケーションのパフォーマンスを向上させることができます。また、AWS Identity Access and Management (IAM) 認証情報を使用して Amazon Redshift に接続することで、アプリケーションをより安全にすることができます。
使用を開始するには、Amazon EMR 6.9、EMR Serverless、または AWS Glue 4.0 に移動し、Apache Spark ジョブまたは Notebook でデータフレームか Spark SQL コードを使用して Amazon Redshift データウェアハウスに接続すると、数分でクエリを実行し始められます。詳細については、Amazon Redshift または Amazon Redshift の Apache Spark との統合をご覧ください。