Amazon S3 теперь поддерживает сжатие в форматах Apache Avro и ORC для таблиц Apache Iceberg

Проведено: 15 июля 2025 г.

Amazon S3 расширяет возможности сжатия за счет поддержки форматов Apache Avro и ORC для таблиц Apache Iceberg в дополнение к уже доступным возможностям на основе формата Parquet. Это усовершенствование работает как для таблиц S3, так и для корзин S3 общего назначения с применением оптимизации Каталога данных AWS Glue.

Хотя для таблиц Iceberg по умолчанию используется формат Parquet, вы также можете записывать данные в форматах Avro или ORC для определенных рабочих нагрузок. К примеру, можно использовать Avro для повышения производительности записи при получении и потоковой передаче данных для ежедневных транзакций покупок, трансляции данных с датчиков, сборе данных о показе рекламы. Таблицы S3 автоматически объединяют мелкие файлы в файлы большего размера, чтобы свести к минимуму объем сканирования данных, повысить производительность запросов и уменьшить затраты. По умолчанию сжатие преобразует файлы Avro и ORC в формат Parquet для оптимальной производительности чтения, но вы можете указать предпочтительный целевой формат в свойствах таблицы.

Поддержка сжатия в форматах Apache Avro и ORC сейчас доступна во всех регионах AWS, где поддерживаются таблицы S3 или оптимизация на основе Каталога данных AWS Glue. Подробнее о сжатии таблиц S3 см. в документации по обслуживанию таблиц S3. Сведения об оптимизации корзин общего назначения см. в документации по оптимизации Каталога данных AWS Glue.