Blog AWS Indonesia

Amazon Athena menambahkan dukungan untuk kueri set data Apache Hudi di data lake berbasis Amazon S3

Amazon Athena sekarang mendukung kueri untuk view yang dioptimalkan untuk baca dari dataset Apache Hudi di data lake berbasis Amazon S3 Anda.

Apache Hudi adalah framework manajemen data open-source yang digunakan untuk menyederhanakan pengolahan data secara inkremental dan pengembangan pipa data. Hudi memungkinkan data lake berbasis Amazon S3 untuk mematuhi undang-undang privasi data, mengkonsumsi aliran real-time dan mengubah log penangkapan data, mengembalikan data yang terlambat tiba, dan melacak riwayat perubahan dan pengembalian. Apache Hudi adalah open-source dan mendukung menyimpan data di Amazon S3 dalam format open source seperti Apache Parket dan Apache Avro.

Insinyur data menggunakan dukungan Apache Hudi di Amazon EMR untuk mengembangkan jaringan pipa data dan untuk menyederhanakan manajemen data secara inkremental dan kasus penggunaan privasi data yang memerlukan operasi penyisipan, perubahan, dan penghapusan di tingkat baris. Dengan rilis ini, pelanggan sekarang dapat menjalankan kueri Athena untuk membaca view yang dioptimalkan untuk baca dari dataset Hudi.

Untuk informasi dan contoh tentang cara membuat tabel Hudi dan menjalankan kueri, silakan kunjungi dokumentasi.

Artikel ini diterjemahkan dari Amazon Athena adds support for querying Apache Hudi datasets in Amazon S3-based data lake.