Каталог данных AWS Glue теперь поддерживает генерацию статистики для таблиц Apache Iceberg

Проведено: 9 июля 2024 г.

Каталог данных AWS Glue теперь поддерживает создание агрегированной статистики на уровне столбцов для таблиц Apache Iceberg. Эта статистика теперь интегрирована с оптимизатором затрат (CBO) из Amazon Redshift Spectrum, что позволяет улучшить производительность запросов и снизить расходы.

Apache Iceberg поддерживает такую статистику, как нулевые, минимальные и максимальные значения, но не поддерживает генерацию статистических данных с агрегацией, таких как количество разных значений (NDV). С запуском этой функции вы получаете интегрированный комплексный интерфейс для сбора данных NDV по столбцам в таблице Apache Iceberg и сохранения их в файлах Apache Iceberg Puffin. Amazon Redshift использует эту статистику агрегирования для оптимизации запросов, применяя самые строгие фильтры на самом раннем из возможных этапов обработки запроса, что позволяет ограничить использование памяти и количество записей, которые необходимо прочитать для получения результатов.

Для начала вы можете создать статистику для таблицы Apache Iceberg с помощью консоли или API-интерфейсов AWS Glue. При каждом запуске Каталог Glue будет вычислять статистику для текущего снимка таблицы Iceberg и сохранять данные у себя и в файле Iceberg Puffin. При выполнении запросов из Amazon Redshift Spectrum вы автоматически повысите производительность запросов за счет встроенной интеграции с Apache Iceberg.

Поддержка генерации статистики в Каталоге AWS Glue сделана общедоступной в следующих регионах AWS: Восток США (Огайо), Запад США (Северная Калифорния), Европа (Франкфурт), Азиатско-Тихоокеанский регион (Мумбаи). Чтобы узнать больше, прочтите публикацию в блоге и ознакомьтесь с документацией по Каталогу AWS Glue.