Каталог данных AWS Glue предлагает усовершенствованную автоматическую оптимизацию таблиц Apache Iceberg

Проведено: 19 дек. 2024 г.

Каталог данных AWS Glue теперь предлагает расширенную автоматическую оптимизацию таблиц Apache Iceberg. Это обновление включает поддержку сжатия файлов удаления, вложенных типов данных, фиксации частичного выполнения и эволюции секций, что упрощает обеспечение стабильной работы транзакционных озер данных. Такие функции позволяют решить проблемы, возникающие у клиентов при непрерывной загрузке потоковых данных в таблицы Apache Iceberg, из-за чего возникает большое количество файлов удаления для отслеживания изменений в файлах данных.

Используя новые возможности, Каталог данных Glue непрерывно отслеживает секции таблиц на наличие файлов позиционного и equality-удаления, запускает процесс сжатия и регулярно фиксирует частичное выполнение для предотвращения конфликтов. Оптимизаторы Каталога данных Glue теперь поддерживают эволюцию схемы при изменении порядка или переименовании столбцов, а также эволюцию спецификаций секции. Кроме того, в Каталоге данных Glue расширена поддержка сложных данных с многоуровневым вложением и кодеков для parquet-сжатия (zstd, brotli, lz4, gzip, snappy). Автоматическое сжатие снижает нагрузку на таблицы Iceberg, связанную с файлами удаления и метаданными, и повышает производительность запросов. Эти новые функции применяются к уже существующим и новым оптимизаторам Каталога данных Glue автоматически.

Помимо консоли AWS, клиенты также могут использовать Интерфейс командной строки AWS (AWS CLI) или AWS SDK для оптимизации таблиц Apache Iceberg. Данная функция доступна в 14 регионах AWS: Восток США (Северная Вирджиния, Огайо), Запад США (Орегон), Европа (Ирландия, Лондон, Франкфурт, Стокгольм), Канада (Центральная), Азиатско-Тихоокеанский регион (Токио, Сеул, Мумбаи, Сингапур, Сидней) и Южная Америка (Сан-Паулу). Дополнительные сведения см. в блоге и в документации к Каталогу данных AWS Glue.