Publicado en: Aug 1, 2019

Ahora puede usar Spark 2.4.3, Presto 0.220, Apache Hive 2.3.5 y Apache Tez 0.9.2 en la versión 5.25.0 de Amazon EMR.

Esta versión también incluye dos nuevas optimizaciones que logran un rendimiento de Spark hasta 3 veces* mejor con respecto a EMR 5.24: Bloom Filter Join y Optimized Join Reorder.

  • Bloom Filter Join filtra las combinaciones de tablas de forma dinámica para incluir solo las filas relevantes. Esto reduce la cantidad de datos que procesado Spark, mejorando así el rendimiento del tiempo de ejecución de la consulta.
  • Optimized Join Reorder reordena de forma dinámica combinaciones para ejecutar combinaciones más pequeñas con filtros primero, lo que reduce el procesamiento necesario para combinaciones posteriores más grandes.

Consulte nuestra documentación sobre el Rendimiento de Spark de EMR y las notas de la versión EMR 5.25.0 para obtener más información sobre cómo habilitar estas optimizaciones. 

Además, hemos actualizado la configuración predeterminada de Spark para las instancias R4 con optimización de memoria con el fin de lograr una mejor utilización de la CPU y de la memoria. Esta actualización ofrece un rendimiento del tiempo de ejecución de Spark 1,5 veces* mejor.

La versión 5.25.0 de Amazon EMR ya se encuentra disponible en todas las regiones en las que se admite el servicio

Para mantenerse informado acerca de las versiones de EMR, suscríbase a la fuente de notas de la versión del servicio. Use el ícono ubicado en la parte superior de la Guía de versiones de EMR para vincular el URL de la fuente directamente con su lector de fuentes de contenido favorito. 

*Basado en el estándar de referencia TPC-DS de 3 TB que compara EMR 5.24.0 con EMR 5.25.0.