AWS объявляет о поддержке векторов удаления и отслеживания происхождения строк Apache Iceberg v3
AWS теперь поддерживает такие функции, как векторы удаления и отслеживание происхождения строк, определенные в спецификации Apache Iceberg версии 3 (v3). Новые функции доступны в Apache Spark на Amazon EMR 7.12, AWS Glue, ноутбуках Amazon SageMaker, таблицах Amazon S3 и каталоге данных AWS Glue.
Эти возможности Iceberg v3 поддерживают построение озер данных петабайтного масштаба за счет повышения эффективности операций по модификации данных и удобства отслеживания измененных записей. Векторы удаления создают оптимизированные файлы удаления, ускоряя тем самым конвейеры данных и снижая затраты на сжатие данных. Функция отслеживания происхождения строк позволяет получать поля с метаданными по каждой записи с помощью простого SQL-запроса. Больше не нужно тратить вычислительные ресурсы на поиск небольших изменений в объемных таблицах.
Чтобы приступить к созданию таблиц v3, задайте для свойства table значение "format-version = 3" в команде CREATE TABLE в Spark или в ноутбуке SageMaker. Чтобы модернизировать существующие таблицы, в метаданных укажите новую версию формата для свойства table. После этого движки запросов AWS, поддерживающие версию 3, будут автоматически использовать векторы удаления и отслеживание происхождения строк.
Векторы удаления и отслеживание происхождения строк Iceberg v3 теперь доступны во всех регионах AWS, где поддерживается каждый соответствующий сервис/функция – Amazon EMR, AWS Glue, ноутбуки SageMaker, таблицы S3 и каталог данных AWS Glue. Чтобы узнать больше о поддержке AWS Iceberg версии 3, посетите сайт Apache Iceberg v3 на AWS и прочитайте публикацию в блоге.