Каталог данных AWS Glue теперь поддерживает оптимизацию хранения таблиц Apache Iceberg
Каталог данных AWS Glue теперь поддерживает оптимизацию хранения таблиц Apache Iceberg путем автоматического удаления ненужных файлов данных. Каждая запись в таблицу Iceberg создает новый снимок или версию таблицы. Кроме того, любые сбои во время записи в таблицы Iceberg приводят к созданию файлов данных, на которые нет ссылок в снимках (так называемые файлы-сироты), что еще больше увеличивает затраты на хранение. Новая оптимизация хранения в каталоге AWS Glue и автоматическое сжатие помогут снизить издержки на метаданные, сократить затраты на хранение и повысить производительность запросов.
Благодаря этому нововведению можно оптимизировать таблицы каталога AWS Glue, включив в них управление снимками и неиспользуемыми данными. Можно оптимизировать макет Amazon S3, указав такую конфигурацию, как срок хранения по умолчанию и продолжительность хранения файлов-сирот в днях. После включения этой функции каталог AWS Glue будет периодически отслеживать таблицы, удалять снимки из метаданных таблиц и файлы данных Amazon S3, а также файлы-сироты, которые больше не нужны. На вкладке оптимизации таблиц на консоли каталога Glue можно просмотреть историю и количество удаленных данных, манифестов, списков манифестов и файлов-сирот.
Помимо консоли AWS заказчики также могут использовать Интерфейс командной строки AWS или AWS SDK для оптимизации таблиц Apache Iceberg. Автоматическая оптимизация таблиц Iceberg доступна в 13 регионах AWS: Восток США (Северная Вирджиния, Огайо), Запад США (Орегон), Европа (Ирландия, Лондон, Франкфурт, Стокгольм), Азиатско-Тихоокеанский регион (Токио, Сеул, Мумбаи, Сингапур, Сидней) и Южная Америка (Сан-Паулу). См. подробные сведения в блоге и документации к каталогу данных AWS Glue.