投稿日: Mar 12, 2024

Amazon EMR Serverless はサーバーレスオプションで、データアナリストやエンジニアが、クラスターやサーバーを構成、管理、スケーリングすることなく、オープンソースのビッグデータ分析フレームワークを簡単に実行できるようにします。

Amazon EMR Serverless 向け Amazon CloudWatch でジョブワーカーメトリクスの提供が開始されたことを発表いたします。今後は、Apache Spark および Hive ジョブのトラッキング vCPU、メモリ、エフェメラルストレージ、ディスク I/O の割り当ておよび使用量メトリクスを集約ワーカーレベルで監視できるようになります。これらの新しいメトリクスにより、ジョブのパフォーマンス、スループット、リソースの使用状況に関する詳細なインサイトが提供されます。これにより、一般的なエラーやボトルネックの根本原因をより迅速に特定し、ワーカーのパフォーマンスを集計して分析し、ジョブを微調整して効率を向上させることができます。たとえば、vCPU またはメモリが十分に活用されていない場合、リソースの浪費が明らかになるため、ワーカーの規模を最適化して潜在的なコスト削減を実現できます。同様に、エフェメラルストレージの使用量の急増を追跡することでディスクのボトルネックを特定でき、ワーカーあたりのストレージ割り当てを増やすことでそれを軽減できます。使用を開始するには、emr-serverless-samples Git リポジトリで提供されているダッシュボードをアカウントにデプロイします。

これらのメトリクスの詳細については、EMR Serverless ユーザーガイドの「ジョブワーカーレベルの監視」ページを参照してください。