Amazon EMR permite mejorar las capacidades de Apache Spark para las tablas de Lake Formation con acceso total a las tablas
Amazon EMR ahora admite operaciones de lectura y escritura de trabajos de Apache Spark en tablas registradas de AWS Lake Formation cuando el rol de trabajo tiene acceso total a la tabla. Esta capacidad habilita las operaciones del lenguaje de manipulación de datos (DML), incluidas las instrucciones CREATE, ALTER, DELETE, UPDATE y MERGE INTO en tablas de Apache Hive e Iceberg desde la misma aplicación de Apache Spark.
Si bien el control de acceso detallado (FGAC) de Lake Formation ofrece controles de seguridad granulares a nivel de fila, columna y celda, muchas cargas de trabajo de extracción, transformación y carga (ETL) simplemente necesitan acceso total a la tabla. Esta nueva característica permite que Apache Spark lea y escriba datos directamente cuando se otorga acceso total a la tabla. De esta manera, se evitan las limitaciones de FGAC que anteriormente restringían ciertas operaciones de ETL. Ahora puede aprovechar las capacidades avanzadas de Spark, que incluyen el conjunto de datos distribuidos y resilientes (RDD), bibliotecas personalizadas, funciones definidas por el usuario (UDF) e imágenes personalizadas (AMI para EMR en EC2, imágenes personalizadas para EMR sin servidor) con tablas de Lake Formation. Además, los equipos de datos pueden ejecutar aplicaciones de Spark complejas e interactivas a través de SageMaker Unified Studio en modo de compatibilidad y, al mismo tiempo, mantener los límites de seguridad a nivel de tabla de Lake Formation.
Esta característica está disponible en todas las regiones de AWS en las que se admiten Amazon EMR y AWS Lake Formation.
Para obtener más información sobre esta característica, visite la sección del acceso sin filtro de Lake Formation en la documentación de EMR sin servidor.