Расширенные возможности Apache Spark для таблиц AWS Lake Formation с полным доступом в AWS Glue

Проведено: 25 июня 2025 г.

AWS Glue теперь поддерживает операции чтения и записи из заданий Apache Spark в AWS Glue 5.0 для зарегистрированных таблиц AWS Lake Formation, когда роль задания имеет к таблицам полный доступ. Эта возможность позволяет выполнять операции на языке манипулирования данными (DML), в том числе инструкции CREATE, ALTER, DELETE, UPDATE и MERGE INTO, в таблицах Apache Hive и Iceberg из одного и того же приложения Apache Spark.

Хотя детализированное управление доступом (FGAC) в Lake Formation обеспечивает контроль безопасности на уровне строк, столбцов и ячеек, для многих рабочих нагрузок извлечения, преобразования и загрузки (ETL) необходим просто полный доступ к таблицам. Новая функция позволяет заданиям Spark в AWS Glue 5.0 напрямую считывать и записывать данные при получении полного доступа к таблице, что устраняет имевшиеся ограничения для некоторых операций извлечения, преобразования и загрузки (ETL). Теперь в таблицах Lake Formation можно использовать расширенные возможности Spark, включая неизменяемые распределенные наборы данных (RDD), настраиваемые библиотеки и пользовательские функции (UDF). Кроме того, специалисты по обработке данных могут запускать сложные интерактивные приложения Spark через Единую студию SageMaker в режиме совместимости, при этом поддерживая ограничения безопасности Lake Formation на уровне таблиц.

Эта функция доступна во всех регионах AWS, где поддерживаются AWS Glue и AWS Lake Formation. Подробнее см. страницу продукта AWS Glue и документацию.