Amazon S3 artık Apache Iceberg tabloları için Apache Avro ve ORC formatlarının sıkıştırılmasını destekliyor
Amazon S3, Apache Iceberg tabloları için mevcut Parquet formatı özelliklerine ek olarak sıkıştırma desteğini Apache Avro ve ORC formatlarını içerecek şekilde genişletti. Bu iyileştirme, AWS Glue Veri Kataloğu optimizasyonu kullanılarak hem S3 Tabloları'nda hem genel amaçlı S3 bucket'larında çalışır.
Parquet, Iceberg tabloları için varsayılan biçim olsa da belirli iş yükleri için Avro veya ORC biçimlerinde de veri yazabilirsiniz. Örneğin, günlük satın alma işlemleri, akış sensörü verileri veya reklam gösterimlerini toplama gibi veri alımı ve akış kullanım örneklerinde yazma performansını artırmak için Avro'yu kullanabilirsiniz. S3 Tabloları, taranan verileri en aza indirmek, sorgu performansını artırmak ve maliyetleri düşürmek için küçük dosyaları otomatik olarak daha büyük dosyalar halinde sıkıştırır. Sıkıştırmada optimum okuma performansı için varsayılan olarak Avro ve ORC dosyaları Parquet'e dönüştürülür ancak tercih ettiğiniz hedef biçimi tablo özelliklerinizde belirtebilirsiniz.
Apache Avro ve ORC biçimlerine yönelik sıkıştırma desteği artık S3 Tabloları'nın kullanılabildiği tüm AWS Bölgelerinde veya AWS Glue Veri Kataloğu ile optimizasyonun sunulduğu yerlerde mevcuttur. S3 Tabloları'nı sıkıştırma hakkında daha fazla bilgi için S3 Tabloları ile ilgili bakım belgelerine bakın. Genel amaçlı bucket optimizasyonu için AWS Glue Veri Kataloğu optimizasyon belgelerine bakın.