Каталог данных AWS Glue теперь поддерживает генерацию статистики для таблиц Apache Iceberg
Каталог данных AWS Glue теперь поддерживает создание агрегированной статистики на уровне столбцов для таблиц Apache Iceberg. Эта статистика теперь интегрирована с оптимизатором затрат (CBO) из Amazon Redshift Spectrum, что позволяет улучшить производительность запросов и снизить расходы.
Apache Iceberg поддерживает такую статистику, как нулевые, минимальные и максимальные значения, но не поддерживает генерацию статистических данных с агрегацией, таких как количество разных значений (NDV). С запуском этой функции вы получаете интегрированный комплексный интерфейс для сбора данных NDV по столбцам в таблице Apache Iceberg и сохранения их в файлах Apache Iceberg Puffin. Amazon Redshift использует эту статистику агрегирования для оптимизации запросов, применяя самые строгие фильтры на самом раннем из возможных этапов обработки запроса, что позволяет ограничить использование памяти и количество записей, которые необходимо прочитать для получения результатов.
Для начала вы можете создать статистику для таблицы Apache Iceberg с помощью консоли или API-интерфейсов AWS Glue. При каждом запуске Каталог Glue будет вычислять статистику для текущего снимка таблицы Iceberg и сохранять данные у себя и в файле Iceberg Puffin. При выполнении запросов из Amazon Redshift Spectrum вы автоматически повысите производительность запросов за счет встроенной интеграции с Apache Iceberg.
Поддержка генерации статистики в Каталоге AWS Glue сделана общедоступной в следующих регионах AWS: Восток США (Огайо), Запад США (Северная Калифорния), Европа (Франкфурт), Азиатско-Тихоокеанский регион (Мумбаи). Чтобы узнать больше, прочтите публикацию в блоге и ознакомьтесь с документацией по Каталогу AWS Glue.