Publicado en: Sep 6, 2019
EMR 6.0.0 (Beta) permite a los usuarios utilizar Spark 2.4.3 y Hadoop 3.1.0. para definir las dependencias de las aplicaciones y bibliotecas mediante las imágenes de Docker del Docker Hub y Amazon Elastic Container Registry (ECR).
Actualmente, los usuarios de PySpark y SparkR deben instalar sus dependencias en cada host en un clúster. Como resultado, los equipos que operan clústeres de varios inquilinos se esfuerzan por mantener las versiones específicas de las bibliotecas y administrar las dependencias, que limitan la productividad del desarrollador, aumentan el tiempo de preparación de un clúster para usar y agregan complejidad a las actualizaciones de clústeres.
Con Hadoop 3, Docker y EMR, los usuarios de Spark ya no tienen que instalar dependencias de biblioteca en hosts individuales de clúster y ahora las dependencias de aplicación se podrán limitar a aplicaciones individuales de Spark. Esto se logra al ejecutar las aplicaciones de Spark en contenedores de Docker en vez de hacerlo directamente en los hosts de clúster EMR. Para usar Docker con su aplicación Spark, simplemente indique el nombre de la imagen de Docker cuando envíe los trabajos a un clúster EMR. YARN, que se ejecuta en un clúster EMR, recuperará inmediatamente la imagen del hub de Docker o ECR y ejecutará la aplicación. Puede usar las imágenes de Docker para empaquetar las dependencias de su biblioteca e incluso puede ejecutar contenedores con diferentes versiones de R y Python en el mismo clúster.
En la versión 6.0.0 (Beta) de EMR también se incluye soporte para Amazon Linux 2 y Amazon Corretto JDK 8. Amazon Linux 2 es la última generación del sistema operativo del servidor Amazon Linux y proporciona nuevas herramientas como el sistema systemd init y el kernel de Amazon Linux LTS ajustado según desempeño. Amazon Corretto JDK 8 proporciona un JDK certificado y compatible con Java SE que incluye soporte a largo plazo, mejoras de desempeño y correcciones de seguridad.
Esta versión 6.0.0 (Beta) de EMR está disponible en las regiones de EE.UU. Este (Norte de Virginia) y EE.UU. Oeste (Oregón). Para comenzar, consulte Cómo ejecutar las aplicaciones de Spark con Docker utilizando la versión 6.0.0 (Beta) de Amazon EMR. Para comentar o preguntar acerca de esta versión, utilice nuestro foro de Amazon EMR.
Para mantenerse informado acerca de las versiones de EMR, suscríbase a la fuente de notas respectiva. Use el ícono ubicado en la parte superior de la Guía de versiones de EMR para vincular el URL de la fuente directamente a su lector de fuentes favorito.