投稿日: Feb 23, 2022

AWS Glue は、ジョブ実行のインサイトを提供するようになりました。これは、エラーの原因とパフォーマンスのボトルネックを特定できるようにすることで、Apache Spark ジョブの開発時間を短縮する機能です。AWS Glue は、サーバーレスの Apache Spark と Python を使用して、お客様が分析用のデータを検出、準備、結合できるようにするデータ統合サービスです。Spark の分散処理と「遅延実行」モデルでは、データエンジニアがエラーを診断してパフォーマンスを調整するのは困難で時間がかかります。今回のリリースにより、AWS Glue は、Spark ジョブのエラーの自動分析と解釈を行い、プロセスを高速化します。

ジョブ実行のインサイトは、ジョブ実行の失敗に関する根本原因分析を簡素化し、AWS Glue と Apache Spark の両方の学習曲線を平坦化します。これは、障害が発生したコードの行番号を識別し、エラー発生時に AWS Glue エンジンは何をしていたかの詳細を提供します。また、エラーを解釈し、ジョブとコードを調整して、問題を修正してパフォーマンスを向上させる方法に関するレコメンデーションを示します。この機能は、AWS Glue が以前提供していた Spark UI ログCloudWatch Logs およびメトリクスを拡張したものです。

この機能は、AWS Glue と同じ AWS リージョンでご利用いただけます。

詳細については、ドキュメントをご覧になるか、AWS Glue Studio ジョブモニタリングダッシュボードで実行されたジョブを確認してください。