AWS Glue Veri Kataloğu, Apache Iceberg tabloları için gelişmiş otomatik optimizasyon sunuyor

Yayınlanma Tarihi: 19 Ara 2024

AWS Glue Veri Kataloğu artık Apache Iceberg tabloları için gelişmiş otomatik optimizasyon sunuyor. Bu güncelleme; silinen dosyaların, iç içe geçmiş veri türlerinin, kısmi ilerleme işlemlerinin ve bölüm geliştirme desteğinin sıkıştırılmasını destekleyerek performanslı işlem veri göllerinin tutarlı bir şekilde sürdürülmesini kolaylaştırır. Bu özellikler, Apache Iceberg tablolarına sürekli olarak aktarılan veri akışıyla müşterilerin karşılaştığı zorluklara yöneliktir ve veri dosyalarındaki değişiklikleri izleyen çok sayıda silinen dosyaya neden olur.

Bu yeni özellik sayesinde Glue Veri Kataloğu, tablo bölümlerini konumsal ve eşitlik bazlı dosya silme işlemleri için sürekli olarak izler, sıkıştırma işlemini başlatır ve çakışmaları azaltmak için düzenli olarak kısmi ilerleme gerçekleştirir. Glue Catalog optimize edicileri artık sütunları yeniden sıralarken veya yeniden adlandırırken şema geliştirmelerini ve bölüm özellikleri geliştirmelerini destekliyor. Ek olarak Glue Catalog, yoğun şekilde iç içe geçmiş karmaşık veriler ve parquet sıkıştırma codec'leri için sunduğu desteği genişletmiştir - zstd, brotli, lz4, gzip, snappy. Otomatik sıkıştırmayı etkinleştirmek, Iceberg tablolarınızdaki silinen dosyaları ve meta veri yükünü azaltırken sorgu performansını artırır. Bu yeni özellikler, mevcut ve yeni Glue Catalog iyileştiricilerine otomatik olarak uygulanır.

AWS konsoluna ek olarak müşteriler, Apache Iceberg tablolarının optimizasyonunu otomatikleştirmek için AWS CLI veya AWS SDK'lerini de kullanabilir. Bu özellik 14 AWS bölgesinde kullanılabilir: ABD Doğu (Kuzey Virginia, Ohio), ABD Batı (Oregon), Avrupa (İrlanda, Londra, Frankfurt, Stokholm), Kanada (Orta), Asya Pasifik (Tokyo, Seul, Mumbai, Singapur, Sidney), Güney Amerika (São Paulo). Daha fazla bilgi edinmek için blogu okuyun ve AWS Glue Veri Kataloğu belgelerini inceleyin.