Amazon EMR ermöglicht erweiterte Apache Spark-Funktionen für Lake Formation-Tabellen mit vollem Tabellenzugriff
Amazon EMR unterstützt jetzt Lese- und Schreibvorgänge von Apache Spark-Jobs in AWS-Lake-Formation-registrierten Tabellen, wenn die Jobrolle vollen Tabellenzugriff hat. Diese Funktion ermöglicht DML-Operationen (Data Manipulation Language), einschließlich CREATE-, ALTER-, DELETE-, UPDATE- und MERGE INTO-Anweisungen für Apache Hive- und Iceberg-Tabellen aus derselben Apache Spark-Anwendung heraus.
Die Zugriffskontrolle (Fine-Grained Access Control; FGAC) von Lake Formation bietet zwar granulare Sicherheitskontrollen auf Zeilen-, Spalten- und Zellenebene, aber viele ETL-Workloads benötigen einfach vollen Tabellenzugriff. Dieses neue Feature ermöglicht es Apache Spark, Daten direkt zu lesen und zu schreiben, wenn der vollständige Tabellenzugriff gewährt wird, wodurch FGAC-Einschränkungen aufgehoben werden, die zuvor bestimmte ETL-Operationen einschränkten. Sie können jetzt erweiterte Spark-Funktionen wie RDDs, benutzerdefinierte Bibliotheken, UDFs und benutzerdefinierte Images (AMIs für EMR auf EC2, benutzerdefinierte Images für EMR-Serverless) mit Lake Formation-Tabellen nutzen. Darüber hinaus können Datenteams komplexe, interaktive Spark-Anwendungen über SageMaker Unified Studio im Kompatibilitätsmodus ausführen und gleichzeitig die Sicherheitsgrenzen von Lake Formation auf Tabellenebene beibehalten.
Dieses Feature ist in allen AWS-Regionen verfügbar, in denen Amazon EMR und AWS Lake Formation unterstützt werden.
Weitere Informationen zu dieser Feature finden Sie im Abschnitt Lake Formation Unfiltered Access in der EMR-Serverless-Dokumentation.