Katalog Data AWS Glue sekarang mendukung pembuatan statistik tingkat kolom terjadwal
Katalog Data AWS Glue kini mendukung pembuatan statistik tingkat kolom terjadwal untuk tabel Apache Iceberg dan format file seperti Parquet, JSON, CSV, XML, ORC, dan ION. Dengan peluncuran ini, Anda dapat menyederhanakan dan mengotomatiskan pembuatan statistik dengan membuat jadwal berulang di Katalog Data Glue. Statistik ini terintegrasi dengan pengoptimal berbasis biaya (CBO) dari Amazon Redshift Spectrum dan Amazon Athena, menghasilkan peningkatan kinerja kueri dan potensi penghematan biaya.
Sebelumnya, untuk menyiapkan jadwal pembuatan statistik berulang, Anda harus memanggil layanan AWS menggunakan kombinasi AWS Lambda dan Penjadwal Amazon EventBridge. Dengan fitur baru ini, Anda sekarang dapat memberikan jadwal berulang sebagai konfigurasi tambahan untuk Katalog Data Glue bersama dengan persentase sampling. Untuk setiap proses terjadwal, jumlah nilai berbeda (NDV) dikumpulkan untuk tabel Apache Iceberg, dan statistik tambahan seperti jumlah nol, maksimum, minimum, dan panjang rata-rata dikumpulkan untuk format file lainnya. Saat statistik diperbarui, Amazon Redshift dan Amazon Athena menggunakannya untuk mengoptimalkan kueri, menggunakan pengoptimalan seperti pesanan gabungan optimal atau pushdown agregasi berbasis biaya. Anda memiliki visibilitas ke dalam status dan waktu setiap proses pembuatan statistik, serta nilai statistik yang diperbarui.
Untuk memulai, Anda dapat menjadwalkan pembuatan statistik menggunakan Konsol Katalog Data AWS Glue atau API AWS Glue. Dukungan untuk pembuatan statistik Katalog AWS Glue secara terjadwal umumnya tersedia di semua wilayah di mana Penjadwal Amazon EventBridge Scheduler tersedia. Kunjungi dokumentasi Katalog AWS Glueuntuk mempelajari selengkapnya.