Publicado en: Jul 21, 2022

Estamos entusiasmados con el lanzamiento de dos funciones nuevas que ayudan a reforzar los controles de acceso con Amazon EMR en los clústeres EC2 (clústeres EMR). Estas funciones son compatibles con los trabajos que se envían al clúster mediante la API de pasos de la REM. Primero es el rol de tiempo de ejecución con Pasos de EMER. El rol de tiempo de ejecución es un rol de AWS Identity and Access Management (IAM) que usted asocia con un Paso EMR. Un Paso EMR usa este rol para acceder a los recursos de AWS. El segundo es la integración con AWS Lake Formation para aplicar controles de acceso a nivel de tablas y columnas para tareas de Apache Spark y Apache Hive con Pasos EMR.

Anteriormente, todos los trabajos que se ejecutaban en un clúster de EMR utilizaban el rol de IAM asociado a las instancias EC2 del clúster de EMR para acceder a los recursos. Este rol se llama el perfil de instancia EC2 de EMR. Por ejemplo, si un trabajo de Spark y un trabajo de Hive que se ejecutan en el mismo clúster necesitan acceder a distintos buckets S3, el perfil de instancia tiene que permitir el acceso a ambos buckets. Con el rol Tiempo de ejecución para Pasos EMR, usted especifica un rol diferente de IAM para el trabajo de Spark y el de Hive, con lo que se delimita el acceso al nivel de trabajo. Esto permite simplificar los controles de acceso en un único clúster de EMR que se comparte entre varios usuarios, en el que cada usuario está aislado mediante roles de IAM.

Además, puede utilizar AWS Lake Formation para aplicar permisos en las tablas y columnas con trabajos de Apache Spark y Apache Hive enviados como pasos de EMR. AWS Lake Formation es un servicio completamente administrado que permite crear, proteger y administrar con facilidad los lagos de datos. AWS Lake Formation le permite aplicar un control de acceso minucioso a los datos almacenados en los lagos de datos, a través de un sencillo mecanismo de concesión o revocación, muy parecido al de un sistema de administración de bases de datos relacionales (RDBMS). Con esta función, los permisos a nivel de tabla y columna definidos en AWS Lake Formation para un rol de IAM se aplican sin problemas a los trabajos de Apache Hive y Apache Spark enviados como pasos de EMR. Esto le permite simplificar aún más los controles de acceso y proporcionar a cada trabajo acceso a bases de datos, tablas y columnas específicas.

 Ambas características se encuentran disponibles en la versión 6.7 de Amazon EMR. Para más información, consulte la Disponibilidad regional de Amazon EMR y las notas de la versión.