投稿日: Feb 10, 2023
Amazon EMR Serverless は Amazon EMR のサーバーレスオプションで、クラスターやサーバーの構成、管理、スケーリングを行う必要がありません。そのためデータエンジニアやデータサイエンティストは、オープンソースのビッグデータ分析フレームワークを簡単に実行できます。EMR Serverless のアプリケーションでは、ワーカーを内部で使用してワークロードを実行しており、ワークロードのニーズに応じたさまざまなワーカー設定を行えます。これまで、EMR Serverless では、最大 30 GB のメモリを搭載した 4 つの vCPU というのが、利用可能なワーカー設定の最大値でした。本日より、EMR Serverless では、最大 60 GB のメモリを搭載した 8 個の vCPU と、最大 120 GB のメモリを搭載した 16 個の vCPU というワーカー設定がサポートされるようになりました。これにより、EMR Serverless でさらに多くのコンピューティングやメモリを大量に必要とするワークロードを実行できます。
ワーカーが大きいほど、ジョブ実行時のパフォーマンスは向上します。ジョブのシャッフルが多い場合は、より大きなサイズのワーカーを使用することで、エグゼキューター間の非効率的なデータ転送を減らすことができます。ジョブでデータの偏りが生じている場合、ワーカーサイズを大きくすれば、メモリ不足で障害が発生する可能性を低減できます。さらに、ジョブでデータをキャッシュする必要がある場合は、ワーカーサイズが大きいほど、より多くのデータをキャッシュでき、ジョブのパフォーマンスが向上します。これらの利点を活用するために、コンピューティングやメモリを大量に必要とする Spark と Hive のワークロードには、EMR Serverless でより大きなサイズのワーカーを使用することをお勧めします。