Publicado en: Aug 27, 2019
Con la versión 5.26.0 de EMR, los usuarios de Spark se benefician de todas las nuevas optimizaciones de rendimiento de Spark que se introdujeron en las versiones 5.24.0 y 5.25.0 de EMR sin necesidad de introducir modificaciones de código o configuración. Las siguientes optimizaciones se encuentran disponibles en la versión 5.26.0 de manera predeterminada:
- Dynamic Partition Pruning: con esta característica, el motor de Spark puede inferir particiones relevantes en tiempo de ejecución, lo que permite ahorrar tiempo y recursos de cómputo mediante la lectura reducida de datos del almacenamiento y la disminución de la cantidad de registros que deben procesarse.
- DISTINCT before INTERSECT: con esta característica, se eliminan los valores duplicados en cada colección de entradas antes de computar la intersección, lo que mejora el rendimiento a través de la reducción del volumen de datos reorganizado entre hosts.
- Flattening Scalar Subqueries: resulta de ayuda en situaciones en las que varias condiciones diferentes deben aplicarse a filas a partir de una tabla específica, lo que evita que la tabla se lea varias veces para cada condición.
- Optimized Join Reorder: con esta característica se reordenan de forma dinámica combinaciones para ejecutar combinaciones más pequeñas con filtros primero, lo que reduce el procesamiento necesario para combinaciones posteriores mayores.
- Bloom Filter Join: con esta característica, se filtran combinaciones de tablas de manera dinámica para incluir únicamente las filas relevantes, lo que reduce el volumen de datos procesado por Spark y mejora el rendimiento del tiempo de ejecución de consultas.
Consulte Optimización del rendimiento de Spark y las notas de la versión 5.26.0 de EMR para obtener más información sobre estas optimizaciones.
En EMR 5.26.0 también se incluye una integración Beta con AWS Lake Formation y versiones nuevas de Apache HBase 1.4.10 y Apache Phoenix 4.14.2. Consulte la sección acerca de la integración de Amazon EMR con AWS Lake Formation (Beta) para obtener más detalles.
La versión 5.26.0 de Amazon EMR ya se encuentra disponible en todas las regiones en las que se admite el servicio.
La versión beta de la integración entre AWS Lake Formation y Amazon EMR está disponible en las regiones EE.UU. Este (Norte de Virginia) y EE.UU. Oeste (Oregón).
Para mantenerse informado acerca de las versiones de EMR, suscríbase a la fuente de notas de la versión de EMR. Use el ícono ubicado en la parte superior de la Guía de versiones de EMR para vincular el URL de la fuente directamente a su lector de fuentes favorito.