投稿日: Jul 21, 2023
AWS Glue クローラーが Apache Hudi テーブルをサポートするようになりました。これにより、お客様は Amazon Athena などの AWS 分析サービスから Apache Hudi テーブル内のデータを直接クエリできるようになります。Apache Hudi は、データベースとデータウェアハウスの機能をデータレイクで利用できるようにするオープンソースのテーブル形式です。Apache Hudi は、データエンジニアがクエリのパフォーマンスを維持しながら、絶えず変化するデータセットを管理するのに役立ちます。
以前、Amazon Athena ユーザーは、Apache Hudi テーブルからデータをクエリするために、Glue データカタログ内にテーブルを手動で作成し、パーティションの変更を更新して、クエリ結果が最新のものになるようにする必要がありました。本日のリリースにより、ユーザーは Glue クローラーを実行することで Apache Hudi テーブルを Glue カタログに自動的に登録できるようになりました。Glue クローラーでは、Copy on write (CoW) および Merge on read (MoR) の Hudi テーブルが、パーティション化されているものも、パーティション化されていないものもサポートされています。登録後は、さまざまな分析サービスで Glue カタログの Hudi テーブルをクエリしたり、Lake Formation のきめ細かいアクセス許可を適用したりできるようになります。Glue クローラーを使用すると、他の Hudi カタログから Glue カタログにデータを移行することもできます。
初めに、ユーザーは Glue クローラーを作成、実行、またはスケジュールし、Hudi テーブルへの Amazon S3 パスを 1 つ以上提供する必要があります。Glue クローラーが実行されるたびに、スキーマおよびパーティション情報が抽出され、Glue カタログに対して、スキーマ、パーティションの変更、および最新の Hudi メタデータファイルの場所を反映する更新が加えられます。
AWS Glue クローラーによる Hudi テーブルのサポートは、AWS Glue が利用できるすべての商用リージョンでご利用いただけます。対象のリージョンについては AWS リージョン表を参照してください。詳細については、AWS Glue クローラーのドキュメントを参照してください。