Каталог данных AWS Glue предлагает усовершенствованную автоматическую оптимизацию таблиц Apache Iceberg
Каталог данных AWS Glue теперь предлагает расширенную автоматическую оптимизацию таблиц Apache Iceberg. Это обновление включает поддержку сжатия файлов удаления, вложенных типов данных, фиксации частичного выполнения и эволюции секций, что упрощает обеспечение стабильной работы транзакционных озер данных. Такие функции позволяют решить проблемы, возникающие у клиентов при непрерывной загрузке потоковых данных в таблицы Apache Iceberg, из-за чего возникает большое количество файлов удаления для отслеживания изменений в файлах данных.
Используя новые возможности, Каталог данных Glue непрерывно отслеживает секции таблиц на наличие файлов позиционного и equality-удаления, запускает процесс сжатия и регулярно фиксирует частичное выполнение для предотвращения конфликтов. Оптимизаторы Каталога данных Glue теперь поддерживают эволюцию схемы при изменении порядка или переименовании столбцов, а также эволюцию спецификаций секции. Кроме того, в Каталоге данных Glue расширена поддержка сложных данных с многоуровневым вложением и кодеков для parquet-сжатия (zstd, brotli, lz4, gzip, snappy). Автоматическое сжатие снижает нагрузку на таблицы Iceberg, связанную с файлами удаления и метаданными, и повышает производительность запросов. Эти новые функции применяются к уже существующим и новым оптимизаторам Каталога данных Glue автоматически.
Помимо консоли AWS, клиенты также могут использовать Интерфейс командной строки AWS (AWS CLI) или AWS SDK для оптимизации таблиц Apache Iceberg. Данная функция доступна в 14 регионах AWS: Восток США (Северная Вирджиния, Огайо), Запад США (Орегон), Европа (Ирландия, Лондон, Франкфурт, Стокгольм), Канада (Центральная), Азиатско-Тихоокеанский регион (Токио, Сеул, Мумбаи, Сингапур, Сидней) и Южная Америка (Сан-Паулу). Дополнительные сведения см. в блоге и в документации к Каталогу данных AWS Glue.