投稿日: Aug 19, 2021
本日、AWS Glue バージョン 3.0 を発表しました。これは、AWS でのデータ統合ワークロードを加速させる、バッチおよびストリーミングジョブ用 AWS Glue Spark の新バージョンです。AWS Glue 3.0 は、オープンソースの Apache Spark 3. 1.1 をベースに、AWS Glue とAmazon EMRの最適化を含むパフォーマンスを最適化した Spark ランタイムを 導入します。The AWS Glue 3.0 ランタイムは、より高速なベクトル化されたリーダーと Amazon S3 に最適化された出力コミッターを使用してAmazon Simple Storage Service (Amazon S3) への読み取りと書き込みの両方を最適化します 。また、パーティション述語の使用により AWS Glue データカタログへのアクセスを最適化します 。 高度に分割されたデータセットに対して、Glue 3.0 は、 パーティションインデックスを使用して不要なパーティションを除外することで実行速度を向上させます。AWS Glue 3.0 ランタイムは、AWS Lake Formation と完全に統合 されており、リソース名や AWS Lake Formation のタグベースのアクセスコントロールを使用して、データベース、テーブル、カラム、ロウ、セルレベルのアクセスコントロールなど、様々な粒度でデータアクセスを 保護することができます。また、AWS Glue 3.0 では、Spark アプリケーションんpモニタリング、デバッグ、チューニングのユーザーエクスペリエンスを向上させる新機能を導入しています。Spark 3.1.1 では 、AWS Glue ストリーミングジョブに役立つ 新しい Spark 実行者のメモリメトリクスやSpark Structured Streaming メトリクスが 追加され 、 Spark UI エクスペリエンスが改善されました 。AWS Glue 2.0 と 同様に、AWS Glue 3.0 は起動時のレイテンシーを短縮し、全体のジョブ完了時間を改善します。
AWS Glue 3.0 は、AWS Glue が利用可能なすべての AWS リージョンで利用できます。この機能の詳細については、AWS Glue ユーザーガイドおよびブログをご覧ください。