投稿日: Nov 28, 2022

AWS でのデータ統合ワークロードを加速させる AWS Glue の新バージョンである AWS Glue バージョン 4.0 をリリースすることになりました。AWS Glue 4.0 は Spark エンジンを Apache Spark 3.3.0Python 3.10 にアップグレードします。Glue 4.0 は最新の Spark および Python リリースを提供するため、ユーザーはデータ統合ワークロードを開発、実行、拡張し、インサイトをより速く得られます。

AWS Glue はサーバーレスでスケーラブルなデータ統合サービスで、複数のソースからのデータの検出、準備、移動、統合を簡素化します。AWS Glue 4.0 では、組み込みの Pandas API のサポートに加え、Apache Hudi、Apache Iceberg および Delta Lake フォーマットのサポートが追加され、データの分析と保存の選択肢が広がりました。また、RDS、MySQL、SQLServer のようなネイティブの AWS Glue データベースソースのコネクタをアップグレードし、一般的なデータベースソースへの接続を簡素化します。AWS Glue 4.0 では新しい Cloud Shuffle Storage Plugin for Apache Spark のネイティブサポートも追加され、実行中にディスク使用量を拡張できるようになりました。クエリの実行中に動的に最適化する Adaptive Query Execution を有効にします。最後に、AWS Glue 4.0 はエラーメッセージにより多くのコンテキストを追加することで、開発者のエクスペリエンスを向上させます。AWS Glue 3.0 と同様、使用したリソースに対してのみ料金が発生します。

AWS Glue 4.0 は中国リージョンと AWS GovCloud (米国) を除く、AWS Glue が利用可能なすべての AWS リージョンで一般利用できるようになりました。

詳細については、AWS のドキュメントをご参照ください。