投稿日: Jul 14, 2020

Amazon Athena が、Amazon S3 ベースのデータレイク内の Apache Hudi データセットの読み取り最適化ビューのクエリをサポートするようになりました。 

Apache Hudi はオープンソースのデータ管理フレームワークで、増分データ処理とデータパイプライン開発を簡素化します。Hudi を使うことで、Amazon S3 ベースのデータレイクがデータプライバシー法を順守したり、リアルタイムストリームを利用したり、データキャプチャログを変更したりできるようになります。さらに、到着データの回復、変更履歴やロールバックの追跡も可能です。オープンソースの Apache Hudi は Apache Parquet や Apache Avro などのオープンソース形式で、Amazon S3 にデータを保存できるようにサポートします。 

データエンジニアは Amazon EMR の Apache Hudi のサポートを使って、データパイプラインの開発や、レコードレベルの挿入、更新、削除操作を必要とする増分データ管理とデータプライバシーのユースケースの簡素化を行います。今回のリリースでは、Athena クエリを実行することで、Hudi データセットの読み取り最適化ビューを読み込むことが可能になりました。 

Hudi テーブルを作成してクエリを実行する方法の詳細や例については、ドキュメントをご覧ください。