Katalog Data AWS Glue kini mendukung pembuatan statistik untuk tabel Apache Iceberg

Dikirim di: 9 Jul 2024

Katalog Data AWS Glue kini mendukung pembuatan statistik agregat tingkat kolom untuk tabel Apache Iceberg. Statistik ini sekarang terintegrasi dengan optimizer berbasis biaya (CBO) dari Amazon Redshift Spectrum, yang menghasilkan peningkatan performa kueri dan potensi penghematan biaya.

Apache Iceberg mendukung statistik seperti nulls, min, max, tetapi tidak memiliki dukungan untuk menghasilkan statistik agregasi seperti jumlah nilai yang berbeda (NDV). Dengan peluncuran ini, Anda sekarang memiliki pengalaman menyeluruh yang terintegrasi di mana NDV dikumpulkan pada kolom tabel Apache Iceberg dan disimpan dalam file Apache Iceberg Puffin. Amazon Redshift menggunakan statistik agregasi ini untuk mengoptimalkan kueri dengan menerapkan filter paling ketat sedini mungkin dalam pemrosesan kueri, sehingga membatasi penggunaan memori dan sejumlah catatan yang dibaca untuk memberikan hasil kueri.

Untuk memulai, Anda dapat menghasilkan statistik untuk tabel Apache Iceberg menggunakan AWS Glue Console atau AWS Glue API. Dengan setiap proses, Glue Catalog akan menghitung statistik untuk snapshot tabel Iceberg saat ini, disimpan dalam file Iceberg puffin dan Katalog Glue. Saat menjalankan kueri dari Amazon Redshift Spectrum, Anda akan secara otomatis mendapatkan peningkatan kinerja kueri dengan integrasi bawaan menggunakan Apache Iceberg.

Dukungan untuk menghasilkan statistik Katalog AWS Glue umumnya tersedia di AWS Region berikut: AS Timur (Ohio), AS Barat (California Utara), Eropa (Frankfurt), Asia Pasifik (Mumbai). Baca postingan blog berikut dan kunjungi dokumentasi Katalog AWS Glue untuk mempelajari selengkapnya.