Каталог данных AWS Glue теперь поддерживает график формирования статистики на уровне столбцов
Каталог данных AWS Glue теперь поддерживает плановое формирование статистики на уровне столбцов для таблиц Apache Iceberg и таких форматов файлов, как Parquet, JSON, CSV, XML, ORC и ION. Выпуск этих функций дает пользователям возможность упростить и автоматизировать формирование статистики, задав повторяющийся график в Каталоге данных Glue. Эта статистика интегрирована с оптимизатором затрат (CBO) из Amazon Redshift Spectrum и Amazon Athena, что повышает эффективность обработки запросов и помогает снизить затраты.
В прошлом для настройки регулярного графика формирования статистики требовалось вызывать сервисы AWS, используя сочетание AWS Lambda и Планировщика событий Amazon EventBridge. Новая функция дает возможность задать регулярный график в форме дополнительной настройки для Каталога данных Glue вместе с процентом выборки. При каждом запуске по графику происходит сбор количества уникальных значений для таблиц Apache Iceberg, а для файлов других форматов собирается дополнительная статистика, такая как число нулевых значений и максимальная, минимальная и средняя длина. По мере обновления статистики сервисы Amazon Redshift и Amazon Athena используют новые данные для оптимизации запросов с помощью оптимального порядка присоединения, pushdown-отправки агрегированных данных на основе затрат или других алгоритмов. Пользователи видят статус и время каждого формирования статистики, а также ее обновленные значения.
Сначала можно запланировать формирование статистики с использованием консоли Каталога данных AWS Glue или API-интерфейсов AWS Glue. Поддержка графика формирования статистики Каталога AWS Glue является общедоступной во всех регионах, где доступен Планировщик событий Amazon EventBridge. Ознакомьтесь с документацией по Каталогу AWS Glue, чтобы узнать больше.