投稿日: Sep 30, 2020
Amazon SageMaker がビルド済みのビッグデータ処理コンテナとして Apache Spark のサポートを開始しました。今後は、このコンテナを Amazon SageMaker Processing で使用し、データ処理または機能エンジニアリングのワークロードにフルマネージドの Spark 環境を利用できます。
Apache Spark は、大規模なデータ処理のための統合分析エンジンです。Amazon SageMaker は、分散データ処理ジョブの実行に必要な Apache Spark およびその他の依存関係を含むビルド済みの Docker イメージの提供を開始しました。Spark ジョブを実行するためのインフラストラクチャの管理とスケーリングには、かなりの手間がかかります。デベロッパーとデータサイエンティストは、共有使用のためにインフラストラクチャを管理し、パフォーマンス、規模、およびコストに関してインフラストラクチャを調整するためにかなりの時間を費やしています。データ処理ジョブの期間のみ使用される永続的な Spark インフラストラクチャを維持するには、ジョブが実行されていない場合でもコストが発生するため、費用負担が大きくなります。
Amazon SageMaker Processing と組み込みの Spark コンテナを使用すると、データ準備のための Spark 処理ジョブを簡単かつ大規模に実行できます。お客様は、フルマネージドの Spark 環境と、Amazon SageMaker のすべてのセキュリティおよびコンプライアンス機能を備えたオンデマンドのスケーラブルなインフラストラクチャのメリットを享受できます。Spark 設定を簡単に管理し、分散処理用のカスタムジョブを送信できます。ジョブを送信する際に、Amazon SageMaker はインフラストラクチャのプロビジョニング、Spark クラスターのブートストラップ、アプリケーションの実行、および完了時のリソースの解放を管理します。