投稿日: Jul 16, 2021
Amazon Athena による Apache Hudi との統合のアップデートにより、新機能と最新の 0.8.0 コミュニティリリースもサポートされるようになりました。Hudi は、S3 データレイクにおける増分データの処理を簡素化するオープンソースのデータ管理フレームワークです。統合のアップデートにより、Amazon EMR、Apache Spark、Apache Hive などの互換性のあるサービスを介して管理される Hudi 0.8.0 テーブルのクエリが Athena でもできるようになるほか、スナップショットクエリやブートストラップテーブルの読み取りもサポートされるようになります。
Apache Hudi はレコードレベルでデータを処理機能です。Apache Hudi を使用することで、変更データキャプチャ (CDC) パイプラインの開発、GDPR に基づく更新や削除、データの挿入やイベントの更新を必要とするセンサーまたはデバイスからのストリーミングデータの管理といったプロセスが効率化されます。Apache Hudi 0.8.0 では、データをコピーすることなく簡単に Hudi に大きな Parquet テーブルを移行できるため、Athena によるクエリや分析も可能になりました。また、スナップショットクエリ向けの Athena の新しいサポートにより、ほぼリアルタイムでストリーミングテーブルの更新が表示できるようになりました。
Athena と Hudi の統合の詳細については、Athena を使用した Apache Hudi データセットのクエリ および Amazon Athena を使用した Apache Hudi データセットのクエリに関するブログをご参照ください。