Inserito il: Nov 18, 2019
Siamo lieti di annunciare il runtime di Amazon EMR per Apache Spark: un ambiente di runtime con prestazioni ottimizzate per Apache Spark, disponibile e attivato per impostazione predefinita sui cluster Amazon EMR. Il runtime EMR per Spark è fino a 32 volte più veloce e ha una compatibilità API del 100% con Spark open source. Il runtime è attivo per impostazione predefinita a partire dalla release 5.28 di EMR.
Per valutare l’impatto di questi miglioramenti, abbiamo utilizzato le query di benchmark TPC-DS con dimensioni di 3 TB in esecuzione su un cluster EMR c4.8xlarge a 6 nodi con dati in Amazon S3. Abbiamo misurato i miglioramenti delle prestazioni come media geometrica del miglioramento nel tempo di esecuzione totale delle query e il tempo di esecuzione totale di query su tutte le query. Abbiamo osservato un miglioramento di 2,4 volte nella media geometrica e un miglioramento di 3,2 volte nel tempo di esecuzione totale delle query tra EMR 5.16 ed EMR 5.28. Per ulteriori dettagli sui miglioramenti delle prestazioni e sull’impatto sulle query brevi o prolungate, consultare il nostro posto del blog sui Big Data AWS: Amazon EMR introduces EMR runtime for Apache Spark.