Каталог данных AWS Glue теперь автоматизирует создание статистики для новых таблиц
Каталог данных AWS Glue теперь поддерживает автоматическое формирование статистики для новых таблиц. Эта статистика интегрирована с оптимизатором затрат (CBO) из Amazon Redshift и Amazon Athena, что повышает эффективность обработки запросов и помогает снизить затраты.
Статистика таблиц используется движком запросов, таким как Amazon Redshift и Amazon Athena, для определения наиболее эффективного способа выполнения запроса. Ранее для создания статистики таблиц Apache Iceberg в Каталоге данных AWS Glue требовалось постоянно отслеживать и обновлять конфигурации таблиц. Теперь Каталог данных AWS Glue позволяет автоматически генерировать статистику для новых таблиц с одноразовой конфигурацией каталога. Для начала выберите каталог по умолчанию в консоли Lake Formation и включите статистику таблицы на вкладке настройки оптимизации таблицы. По мере создания новых или обновления существующих таблиц статистика формируется с использованием выборки строк для всех столбцов и будет периодически обновляться. Для таблиц Apache Iceberg эти статистические данные включают количество отдельных значений (NDV). Для других форматов файлов, таких как Parquet, собираются дополнительные статистические данные, например количество нулей, максимальные и минимальные значения, средняя длина. Сервисы Amazon Redshift и Amazon Athena используют обновленную статистику для оптимизации запросов с помощью оптимального порядка присоединения, pushdown-отправки агрегированных данных на основе затрат или других алгоритмов. Консоль Каталога Glue обеспечивает отображение обновленной статистики и сеансов формирования статистики.
Поддержка автоматизации статистики Каталога данных AWS Glue доступна в следующих регионах AWS: Восток США (Северная Вирджиния, Огайо), Запад США (Северная Калифорния, Орегон), Европа (Ирландия), Азиатско-Тихоокеанский регион (Токио). Чтобы узнать больше, прочтите публикацию в блоге и ознакомьтесь с документацией по Каталогу AWS Glue.