AWS Glue Veri Kataloğu artık Apache Iceberg tabloları için istatistik oluşturmayı destekliyor
AWS Glue Veri Kataloğu artık Apache Iceberg tabloları için sütun düzeyinde toplu istatistikler oluşturmayı destekliyor. Bu istatistikler artık ve Amazon Redshift Spectrum'daki maliyet tabanlı optimizasyon aracı (CBO) ile entegredir ve iyileştirilmiş sorgu performansı ve olası maliyet tasarrufu sağlar.
Apache Iceberg; boş, min., maks. gibi istatistikleri destekler ancak farklı değer sayısı (NDV) gibi toplama istatistikleri oluşturma desteğinden yoksundur. Bu lansmanla, artık NDV'lerin Apache Iceberg tablosunun sütunlarında toplandığı ve Apache Iceberg Puffin dosyalarında saklandığı uçtan uca entegre deneyimden yararlanabilirsiniz. Amazon Redshift, sorgu işlemede mümkün olduğunca erken bir aşamada en kısıtlayıcı filtreleri uygulayarak sorguları optimize etmek için bu toplama istatistiklerini kullanır. Böylece bellek kullanımını ve sorgu sonuçlarını sağlamak için okunan kayıt sayısını sınırlar.
Başlangıç aşamasında AWS Glue Konsolu veya AWS Glue API'lerini kullanarak bir Apache Iceberg tablosu için istatistikler oluşturabilirsiniz. Her çalıştırmada, Glue Kataloğu mevcut Iceberg tablosu anlık görüntüsü için istatistikleri hesaplar, bunları Iceberg Puffin dosyasında ve Glue Kataloğunda saklar. Amazon Redshift Spectrum'dan sorgular çalıştırdığınızda, Apache Iceberg ile yerleşik entegrasyon sayesinde sorgu performansı iyileştirmelerini otomatik olarak alırsınız.
AWS Glue Kataloğu istatistiklerini oluşturma desteği genellikle şu AWS bölgelerinde kullanılabilir: ABD Doğu (Ohio), ABD Batı (Kuzey Kaliforniya), Avrupa (Frankfurt), Asya Pasifik (Mumbai). Blog gönderisini okuyun ve daha fazla bilgi edinmek için AWS Glue Kataloğu belgelerini ziyaret edin.