Publié le: Aug 27, 2019
Avec la version EMR 5.26.0, les utilisateurs de Spark peuvent tirer parti de toutes les options d'optimisation des performances accompagnant les versions EMR 5.24.0 et 5.25.0 sans avoir à effectuer des modifications de code ou des configurations. Les options d’optimisation ci-dessous sont activées par défaut dans la version 5.26.0 :
- Nettoyage dynamique des partitions : permet au moteur Spark de déduire les partitions concernées au moment de l'exécution, ce qui représente des gains de temps et de ressources de calcul à travers la réduction de la quantité de données à lire dans le stockage, mais aussi du nombre d'enregistrements à traiter.
- DISTINCT avant INTERSECT : élimine la duplication des valeurs dans chaque collection en entrée avant le calcul de l’intersection. Il en résulte une optimisation des performances liée à la réduction du volume de données ventilées entre les hôtes.
- Aplatissement des sous-requêtes scalaires : utile lorsque plusieurs conditions différentes à des lignes d’une table spécifique doivent être appliquées, ce qui évite la lecture répétée de la table pour chaque condition.
- Réorganisation optimisée des jonctions : permet de réordonner les jointures pour en exécuter de plus petites avec des filtres en premier lieu, ce qui réduit le traitement requis pour les jointures suivantes plus importantes.
- Jonction de filtre Bloom : elle permet de filtrer de manière dynamique les jonctions de tables afin d'inclure les lignes concernées, ce qui réduit le volume de données traitées par Spark et optimise les performances d’exécution des requêtes.
Veuillez consulter la documentation Optimisation des performances Spark et les notes de mise à jour EMR 5.26.0 pour plus de détails sur ces optimisations.
La version EMR 5.26.0 comprend également une intégration bêta avec AWS Lake Formation et les nouvelles versions d'Apache HBase 1.4.10 et Apache Phoenix 4.14.2. Consultez la page Intégration d'Amazon EMR avec AWS Lake Formation (bêta) pour en savoir plus sur l'intégration.
Amazon EMR 5.26.0 est désormais disponible dans toutes les régions prenant en charge Amazon EMR.
L'intégration entre AWS Lake Formation et Amazon EMR est en version bêta. Elle est disponible dans les régions USA Est (Virginie du Nord) et USA Ouest (Oregon).
Vous pouvez rester à jour sur les versions EMR en vous abonnant au flux des notes de versions EMR. Utilisez l'icône en haut du Guide des versions EMR pour lier l'URL du flux directement à votre lecteur de flux préféré.