Inserito il: Aug 1, 2019
Ora è possibile usare Spark 2.4.3, Presto 0.220, Apache Hive 2.3.5 e Apache Tez 0.9.2 nella versione 5.25.0 di Amazon EMR.
Questa versione include anche due nuove ottimizzazioni delle prestazioni che migliorano l’efficienza di Spark fino a 3 volte* su EMR 5.24: filtro bloom di join e riordine ottimizzato di join.
- La tabella di filtri “filtro bloom di join” si associa in modo dinamico per includere solo le righe significative. Ciò riduce la quantità di dati elaborati da Spark e migliora così le prestazioni del runtime delle query.
- Il filtro di riordine ottimizzato di join riordina dinamicamente i join per eseguire prima quelli di dimensioni inferiori tramite filtri, riducendo l'elaborazione richiesta per i join successivi più grandi.
Puoi fare riferimento alla nostra documentazione Prestazioni di Spark in EMR e alle note di rilascio di EMR 5.25.0, per i dettagli su come abilitare queste ottimizzazioni.
Inoltre, abbiamo aggiornato la configurazione Spark predefinita per le istanze R4 con memoria ottimizzata per ottenere un migliore utilizzo della CPU e della memoria stessa. Questo aggiornamento migliora le prestazioni di runtime di Spark di 1 volta e mezza*.
Amazon EMR v. 5.25.0 è ora disponibile in tutte le regioni supportate per Amazon EMR.
Puoi essere sempre informato sulle nuove versioni di EMR iscrivendoti ai feed delle note di rilascio della versione EMR. Usa l’icona nella parte superiore della guida di rilascio di EMR per collegare l’URL dei feed direttamente al tuo reader preferito.
*Basato sul benchmark TPC-DS da 3 TB tramite la comparazione della versione EMR 5.24.0 con quella EMR 5.25.0.