Publié le: Aug 1, 2019
Vous pouvez désormais utiliser Spark 2.4.3, Presto 0.220, Apache Hive 2.3.5 et Apache Tez 0.9.2 sur Amazon EMR version 5.25.0.
Cette version comprend également deux nouvelles optimisations de performances qui améliorent les performances de Spark jusqu'à 3x* par rapport à EMR 5.24 : Bloom Filter Join et Optimized Join Reorder.
- Le tableau de filtres Bloom Filter Join s’ajoute de manière dynamique pour n’inclure que les lignes pertinentes. Cela réduit la quantité de données traitées par Spark et améliore les performances d'exécution des requêtes.
- Optimized Join Reorder réordonne de manière dynamique les jointures pour en exécuter de plus petites avec des filtres en premier lieu, ce qui réduit le traitement requis pour les jointures suivantes plus importantes.
Reportez-vous à la documentation EMR Spark Performance et aux notes de mise à jour EMR 5.25.0 pour plus de détails sur l'activation de ces optimisations.
En outre, nous avons mis à jour la configuration Spark par défaut pour les instances R4 optimisées en mémoire afin d'obtenir une meilleure utilisation du processeur et de la mémoire. Cette mise à jour améliore les performances d'exécution de Spark de 1,5 fois*.
Amazon EMR 5.25.0 est désormais disponible dans toutes les régions prenant en charge Amazon EMR.
Vous pouvez rester à jour sur les versions EMR en vous abonnant au flux des notes de versions EMR. Utilisez l'icône en haut du Guide des versions EMR pour lier l'URL du flux directement à votre lecteur de flux préféré.
*D’après le banc d’essai 3TB TPC-DS comparant EMR 5.24.0 à EMR 5.25.0.