Katalog Data AWS Glue sekarang mendukung pengoptimalan penyimpanan tabel Apache Iceberg

Dikirim di: 12 Sep 2024

Katalog Data AWS Glue kini mendukung pengoptimalan penyimpanan tabel Apache Iceberg dengan menghapus file data yang tidak lagi diperlukan secara otomatis. Setiap penulisan ke tabel Iceberg membuat snapshot baru, atau versi, dari sebuah tabel. Selain itu, kegagalan apa pun selama menulis ke tabel Iceberg akan membuat file data yang tidak direferensikan dalam snapshot yang dikenal sebagai file “orphan” yang selanjutnya meningkatkan biaya penyimpanan. Pengoptimalan penyimpanan baru katalog AWS Glue bersama dengan pemadatan otomatis akan membantu Anda mengurangi overhead metadata, mengontrol biaya penyimpanan, dan meningkatkan kinerja kueri.

Dengan peluncuran ini, Anda dapat mengaktifkan pengoptimalan tabel katalog AWS Glue untuk menyertakan snapshot dan manajemen data orphan. Anda dapat mengoptimalkan tata letak Amazon S3 dengan menyediakan konfigurasi seperti periode penyimpanan default dan hari untuk menyimpan file orphan. Setelah diaktifkan, katalog AWS Glue secara berkala memantau tabel, menghapus snapshot dari metadata tabel, menghapus file data Amazon S3, dan file yatim piatu yang tidak lagi diperlukan. Anda dapat melihat riwayat jumlah data, manifes, daftar manifes, dan file yatim piatu yang dihapus dari tab pengoptimalan tabel di konsol katalog Glue.

Selain konsol AWS, pelanggan juga dapat menggunakan AWS CLI atau AWS SDK untuk mengaktifkan pengoptimalan tabel Apache Iceberg. Pengoptimalan otomatis untuk tabel Iceberg tersedia di 13 AWS Region, yaitu AS Timur (Virginia Utara, Ohio), AS Barat (Oregon), Eropa (Irlandia, London, Frankfurt, Stockholm), Asia Pasifik (Tokyo, Seoul, Mumbai, Singapura, Sydney), Amerika Selatan (Sao Paulo). Untuk mempelajari lebih lanjut, baca blog, dan kunjungi dokumentasi Katalog Data AWS Glue.