Katalog Data AWS Glue sekarang mengotomatiskan pembuatan statistik untuk tabel baru

Dikirim di: 3 Des 2024

Katalog Data AWS Glue kini mengotomatiskan pembuatan statistik untuk tabel baru. Statistik ini terintegrasi dengan pengoptimal berbasis biaya (CBO) dari Amazon Redshift dan Amazon Athena, menghasilkan peningkatan kinerja kueri dan potensi penghematan biaya.

Statistik tabel digunakan oleh mesin kueri, seperti Amazon Redshift dan Amazon Athena, untuk menentukan cara paling efisien untuk menjalankan kueri. Sebelumnya, membuat statistik untuk tabel Apache Iceberg di Katalog Data AWS Glue mengharuskan Anda untuk terus memantau dan memperbarui konfigurasi untuk tabel Anda. Sekarang, Katalog Data AWS Glue memungkinkan Anda menghasilkan statistik secara otomatis untuk tabel baru dengan konfigurasi katalog satu kali. Anda dapat memulai dengan memilih katalog default di konsol Lake Formation dan mengaktifkan statistik tabel di tab konfigurasi pengoptimalan tabel. Saat tabel baru dibuat atau tabel yang ada diperbarui, statistik dihasilkan menggunakan sampel baris untuk semua kolom dan akan diperbarui secara berkala. Untuk tabel Apache Iceberg, statistik ini mencakup jumlah nilai berbeda (NDV). Untuk format file lain seperti Parquet, statistik tambahan dikumpulkan, seperti jumlah nol, nilai maksimum dan minimum, dan panjang rata-rata. Amazon Redshift dan Amazon Athena menggunakan statistik terkini untuk mengoptimalkan kueri, menggunakan pengoptimalan seperti urutan penggabungan optimal atau penekanan agregasi berbasis biaya. Konsol Katalog Glue memberi Anda visibilitas ke dalam statistik yang diperbarui dan proses pembuatan statistik.

Dukungan otomatisasi untuk statistik Katalog AWS Glue umumnya tersedia di AWS region berikut: wilayah AS Timur (Virginia Utara, Ohio), AS Barat (California Utara, Oregon), Eropa (Irlandia), Asia Pasifik (Tokyo). Baca postingan blog berikut dan kunjungi dokumentasi Katalog AWS Glue untuk mempelajari selengkapnya.