Publicado en: Aug 8, 2023
Amazon EMR Studio es un entorno de desarrollo integrado (IDE) que facilita a los científicos e ingenieros de datos el desarrollo, la visualización y la depuración de aplicaciones de macrodatos y de análisis escritas en PySpark, Python, Scala y R. EMR Studio proporciona cuadernos de Jupyterlab completamente administrados y herramientas, como Spark UI y YARN Timeline Service, para simplificar la depuración. Hoy nos complace anunciar que los espacios de trabajo de EMR Studio ahora admiten la aplicación de un control de acceso detallado a los datos con AWS Lake Formation al acceder a los datos a través de EMR en clústeres de EC2.
Ahora, cuando se conecta a los clústeres de EMR desde los espacios de trabajo de EMR Studio, puede elegir el rol de IAM (denominado rol de IAM de la versión ejecutable) con el que quiere conectarse. Los cuadernos interactivos de Apache Spark solo accederán a los datos y recursos permitidos por las políticas asociadas a este rol de la versión ejecutable. Cuando se accede a los datos desde lagos de datos administrados con AWS Lake Formation, puede exigir el acceso a nivel de tablas y columnas mediante políticas asociadas a este rol de la versión ejecutable. Con esta nueva capacidad, varios usuarios pueden conectarse al mismo clúster de EMR desde sus espacios de trabajo de EMR Studio, cada uno con un rol de versión ejecutable con permisos de acceso a los datos personalizados. Las sesiones del usuario están completamente aisladas entre sí en el clúster compartido. Esto también puede simplificar el aprovisionamiento de clústeres de EMR para casos de uso interactivos, reduciendo así los gastos operativos y ahorrando costos.
Esta característica generalmente está disponible cuando se conecta a Amazon EMR en clústeres de EC2 en las versiones 6.11+ en todas las regiones en las que se admite EMR Studio. Para obtener más información, consulte la documentación de EMR.