投稿日: Nov 28, 2022

AWS Glue for Apache Spark は3 つのオープンソースデータレイクストレージフレームワーク、Apache Hudi、Apache Iceberg、Linux Foundation Delta Lake をサポートするようになりました。これらのフレームワークを使用すると、Amazon Simple Storage Service (Amazon S3) でトランザクションとして一貫した方法でデータを読み書できます。AWS Glue はサーバーレスでスケーラブルなデータ統合サービスで、複数のソースからのデータの検出、準備、移動、統合を簡素化します。この機能により、個別のコネクタをインストールする必要がなくなり、AWS Glue for Apache Spark のジョブでこれらのフレームワークを使用するのに必要な設定手順を減らせます。

これらのオープンソースデータレイクフレームワークにより、Amazon S3 に構築したデータレイクでの増分データの処理が簡単になります。これらのフレームワークは、タイムトラベルクエリ、ACID (不可分性、整合性、分離性、耐久性) トランザクション、ストリーミングの取り込み、変更データキャプチャ (CDC)、アップサート、削除などの機能を有効にします。

詳細については、AWS のドキュメントをご覧ください。

この機能は、AWS Glue が利用できるすべての商用 AWS リージョンで利用可能です。