投稿日: May 1, 2024

Amazon EMR Serverless は Amazon EMR のサーバーレスオプションで、クラスターやサーバーの構成、管理、スケーリングを行う必要がありません。そのためデータエンジニアやデータサイエンティストは、オープンソースのビッグデータ分析フレームワークを簡単に実行できます。EMR Serverless アプリケーションはワーカーを使用してワークロードを実行し、ユーザーはワークロードのニーズに基づいてワーカーごとにエフェメラルストレージを設定できます。本日、Amazon EMR Serverless にシャッフル最適化ディスクが導入されたことを発表します。これにより、ストレージ容量の増加 (最大 2 TB) と IOPS の向上を実現し、I/O 負荷の高い Spark および Hive ワークロードのパフォーマンスが向上します。

シャッフルとは、Apache Spark または Apache Hive ジョブの基本的なステップで、結合、集計、変換などの操作中に並列計算のためにデータを再分散または再編成する I/O 負荷の高い操作です。大量のデータセットをシャッフルする複雑なワークロードには、シャッフル処理を最適化するための十分なディスク容量と I/O パフォーマンスが必要です。シャッフル最適化ディスクは、最大 2 TB のストレージ容量と高いベースライン IOPS を提供するため、シャッフルが多く、I/O 負荷の高い Spark および Hive ワークロードを効率的に実行できます。

シャッフル最適化ディスクは、AWS GovCloud (米国) と中国リージョンを除く、EMR Serverless が利用可能なすべての AWS リージョンで、EMR リリースバージョン 7.1.0 で一般提供されています。シャッフル最適化ディスクの詳細については、EMR Serverless のユーザーガイドをご覧ください。シャッフル最適化ディスクの価格情報については、EMR Serverless の料金ページをご覧ください。