投稿日: May 9, 2023

Amazon Athena を使用して Apache Hudi 0.12.2 で作成されたテーブルにクエリを実行できるようになりました。これには、Amazon S3 データレイクのデータセットにアクセスするクエリのスケーラビリティを向上させるサポートが含まれています。今回の統合により、Amazon EMR、Apache Spark、Apache Hive またはその他の互換性のあるサービスを介して管理される Hudi 0.12.2 のテーブルを Athena で照会することが可能になります。

Apache Hudi は、S3 データレイクにおける増分データの処理を簡素化するオープンソースのデータ管理フレームワークです。Hudi はレコードレベルでデータを処理します。Apache Hudi を使用することで、変更データキャプチャ (CDC) パイプラインの開発、GDPR に基づく更新や削除、データの挿入やイベントの更新を必要とするセンサーまたはデバイスからのストリーミングデータの管理といったプロセスが効率化されます。0.12.2 リリースにはメタデータテーブルのサポートが含まれています。メタデータテーブルは、大規模なデータセットでの効率的なスケーリングをより適切にサポートするために、「ファイル一覧」操作が不要になるように設計されています。代わりに、メタデータテーブルはファイル一覧をプロアクティブに管理し、再帰的なファイル一覧表示操作が不要になり、Amazon S3 のようなストレージシステムの場合のリクエスト制限にぶつかるのを防ぐことができます。

Apache Hudi 0.12.2 のサポートは Athena エンジンバージョン 3 で利用可能で、サポートされている地域でも利用できます。Athena での新しい Apache Hudi 0.12.2 サポートについて詳しくは、Athena ユーザードキュメントの「Hudi データセットのクエリ」を参照してください。