AWS Glue Veri Kataloğu artık sütun düzeyinde istatistiklerin zamanlanmış olarak oluşturulmasını destekliyor

Yayınlanma Tarihi: 13 Kas 2024

AWS Glue Veri Kataloğu artık Apache Iceberg tablolarının yanı sıra Parquet, JSON, CSV, XML, ORC ve ION gibi dosya biçimleri için sütun düzeyinde istatistiklerin zamanlanmış olarak oluşturulmasını destekliyor. Bu lansmanla, Glue Veri Kataloğu'nda yinelenen bir program oluşturarak istatistiklerin oluşturulmasını basitleştirebilir ve otomatikleştirebilirsiniz. Bu istatistikler Amazon Redshift Spectrum ve Amazon Athena'daki maliyet tabanlı optimizasyon aracı (CBO) ile entegredir ve iyileştirilmiş sorgu performansı ile potansiyel maliyet tasarrufları sağlar.

Daha önce, yinelenen istatistik oluşturma zamanlamasını ayarlamak için AWS Lambda ve Amazon EventBridge Zamanlayıcısı kombinasyonunu kullanarak AWS hizmetlerini aramanız gerekiyordu. Bu yeni özellik sayesinde, yinelenen zamanlamayı, örnekleme yüzdesi ile birlikte Glue Veri Kataloğu'na ek bir yapılandırma olarak sağlayabilirsiniz. Her zamanlanmış çalışmada Apache Iceberg tabloları için farklı değerlerin (NDV'ler) sayısı toplanır ve diğer dosya biçimleri için boş, maksimum, minimum ve ortalama uzunluk gibi ek istatistikler toplanır. İstatistikler güncellendikçe, Amazon Redshift ve Amazon Athena, optimum birleştirme düzeni veya maliyet tabanlı toplama aşağı göndermesi gibi optimizasyonları kullanarak sorguları optimize etmek için bunları kullanır. Her istatistik oluşturma çalışmasının durumu ve zamanlaması ile güncellenmiş istatistik değerleri hakkında görünürlük elde edersiniz.

Başlamak için AWS Glue Veri Kataloğu Konsolu veya AWS Glue API'leri kullanarak istatistik oluşturmayı zamanlayabilirsiniz. Zamanlanmış AWS Glue Kataloğu istatistiklerinin oluşturulmasına yönelik destek Amazon EventBridge Zamanlayıcısı'nın kullanılabildiği tüm bölgelerde genel olarak kullanılabilir. Daha fazla bilgi edinmek için AWS Glue Kataloğu belgelerini inceleyin.