新しい AWS Glue 4.0 — 新規および更新されたエンジン、より多くのデータフォーマットなど

AWS Glue は、データ統合と ETL ワークロードの開発と実行を加速するのに役立つ、スケーラブルなサーバーレスツールです。11 月 28 日、エンジンの更新、追加データ形式のサポート、Ray サポートなど、さまざまな機能を備えた Glue 4.0 をリリースいたします。

話を始める前に、バージョン管理について少しだけ説明します。サービスチームが API を所有し、完全に制御するほとんどの AWS サービスとは異なり、Glue にはオープンソースコミュニティによって開発されたライブラリ、エンジン、ツールのコレクションが含まれています。これらのコンポーネントの中には、効率性を追求して、厳密な下位互換性を維持していないものもあります。コンポーネントの変更が Glue ジョブに影響しないようにするには、ジョブの作成時に特定の Glue バージョンを選択する必要があります。

Glue の各バージョンには、追加機能に加えてパフォーマンスと信頼性のメリットがあります。Glue が提供するすべての機能を活用するには、時間をかけてジョブをアップグレードすることを計画してください。

Glue に飛び込みましょう
Glue 4.0 の新機能を見てみましょう。

更新されたエンジン — このバージョンの Glue には Python 3.10 と Apache Spark 3.3.0 が含まれています。どちらのエンジンにもバグ修正とパフォーマンスの向上が含まれています。Spark には、行レベルの実行時フィルタリング、エラーメッセージの改善、組み込み関数の追加などの新機能が含まれています。Glue と Amazon EMR では、最適化された Spark ランタイムと同じ AWS クラウドでの実行に最適化されており、基本的なオープンソースバージョンの 2～3 倍の速度を実現しています。

新しいエンジンプラグイン — Glue 4.0では、ディスク使用量のスケーリングに役立つ Spark 用クラウドシャッフルサービスプラグインと、実行時にクエリを動的に最適化するアダプティブクエリ実行のネイティブサポートが追加されています。

Pandas サポート —Pandas は Python 上に構築されたオープンソースのデータ分析および操作ツールです。簡単に習得でき、あらゆる種類の興味深く便利なデータ操作機能が含まれています。

新しいデータフォーマット — データレイクを構築する場合でも、データウェアハウスを構築する場合でも、Glue 4.0はApache Hudi、Apache Iceberg、Delta Lake をサポートしているため、ソースとターゲットの新しいオープンソースデータ形式を処理できるようになりました。これらの新しいオプションと形式の詳細については、「主要な設計コンセプトを実装し AWS Glue を使用して Apache Hudi を使い始める」を参照してください。

その他すべて — 上記の項目に加えて、Glue 4.0 には Parquet のベクトル化リーダーも含まれており、追加のデータタイプとエンコーディングをサポートしています。log4j 2 を使用するようにアップグレードされ、log4j 1 に依存しなくなりました。

今すぐご利用いただけます
Glue 4.0 は現在、米国東部 (オハイオ、バージニア北部)、米国西部 (北カリフォルニア、オレゴン)、アフリカ (ケープタウン)、アジアパシフィック (香港、ジャカルタ、ムンバイ、大阪、ソウル、シンガポール、シドニー、東京)、カナダ (中部)、欧州 (フランクフルト、アイルランド、ロンドン、ミラノ、パリ、ストックホルム)、中東 (バーレーン)、南米 (サンパウロ) の AWS リージョンでご利用いただけます。。

– Jeff;

原文はこちらです。

Amazon Web Services ブログ

新しい AWS Glue 4.0 — 新規および更新されたエンジン、より多くのデータフォーマットなど

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ