Amazon S3 unterstützt jetzt die Komprimierung der Apache Avro- und ORC-Formate für Apache-Iceberg-Tabellen

Veröffentlicht am: 15. Juli 2025

Amazon S3 hat die Komprimierungsunterstützung um die Formate Apache Avro und ORC für Apache-Iceberg-Tabellen erweitert und damit die vorhandenen Parquet-Formatfunktionen ergänzt. Diese Erweiterung funktioniert sowohl für S3 Tables als auch für allgemeine S3-Buckets mithilfe der AWS Glue-Datenkatalogoptimierung.

Parquet ist zwar das Standardformat für Iceberg-Tabellen, Sie können aber auch Daten im Avro- oder ORC-Format für bestimmte Workloads schreiben. Sie können Avro beispielsweise verwenden, um die Schreibleistung für Anwendungsfälle wie Datenaufnahme und Streaming zu verbessern, z. B. tägliche Kauftransaktionen, das Streamen von Sensordaten oder das Sammeln von Werbemittelkontakten. S3 Tables komprimieren automatisch kleine Dateien in größere, um gescannte Daten zu minimieren, die Abfrageleistung zu verbessern und die Kosten zu senken. Standardmäßig konvertiert die Komprimierung Avro- und ORC-Dateien in Parquet, um eine optimale Leseleistung zu erzielen. Sie können jedoch Ihr bevorzugtes Zielformat in Ihren Tabelleneigenschaften angeben.

Die Komprimierungsunterstützung für die Formate Apache Avro und ORC ist jetzt in allen AWS-Regionen verfügbar, in denen S3 Tables oder Optimierungen mit dem AWS-Glue-Datenkatalog verfügbar sind. Weitere Informationen zur Komprimierung von S3 Tables finden Sie in der Dokumentation zur Wartung von S3 Tables. Informationen zur Bucket-Optimierung für allgemeine Zwecke finden Sie in der Dokumentation zur Optimierung des AWS-Glue-Datenkatalogs.