Расширенные возможности Apache Spark для таблиц Lake Formation с полным доступом в Amazon EMR
Amazon EMR теперь поддерживает операции чтения и записи из заданий Apache Spark в зарегистрированных таблицах AWS Lake Formation, когда роль задания имеет к таблицам полный доступ. Эта возможность позволяет выполнять операции на языке манипулирования данными (DML), в том числе инструкции CREATE, ALTER, DELETE, UPDATE и MERGE INTO, в таблицах Apache Hive и Iceberg из одного приложения Apache Spark.
Хотя детализированное управление доступом (FGAC) в Lake Formation обеспечивает контроль безопасности на уровне строк, столбцов и ячеек, для многих рабочих нагрузок извлечения, преобразования и загрузки (ETL) необходим просто полный доступ к таблицам. Новая функция позволяет Apache Spark напрямую считывать и записывать данные при получении полного доступа к таблице, что устраняет имевшиеся ограничения FGAC для некоторых ETL-операций. Теперь вы можете использовать расширенные возможности Spark, включая устойчивые распределенные наборы данных (RDD), а также пользовательские библиотеки, функции (UDF) и образы (AMI для EMR на базе EC2, пользовательские образы для бессерверной конфигурации EMR), с таблицами Lake Formation. Кроме того, специалисты по обработке данных могут запускать сложные интерактивные приложения Spark через Единую студию SageMaker в режиме совместимости, при этом поддерживая ограничения безопасности Lake Formation на уровне таблиц.
Эта функция доступна во всех регионах AWS, где поддерживаются Amazon EMR и AWS Lake Formation.
Дополнительные сведения об этой функции см. в разделе Нефильтруемый доступ в Lake Formation из документации по бессерверной конфигурации EMR.