Publicado: Aug 1, 2019
Agora, você pode usar o Spark 2.4.3, o Presto 0.220, o Apache Hive 2.3.5 e o Apache Tez 0.9.2 no Amazon EMR versão 5.25.0.
Essa versão também inclui duas novas otimizações de performance que melhoram a performance do Spark em até três vezes* em relação ao EMR 5.24: Bloom Filter Join e Optimized Join Reorder.
- O Bloom Filter Join filtra dinamicamente associações de tabela para incluir somente as linhas relevantes. Isso reduz a quantidade de dados processados pelo Spark, aprimorando a performance do tempo de execução das consultas.
- O Optimized Join Reorder reordena dinamicamente as associações para executar primeiro as associações menores com filtros, reduzindo o processamento necessário para as associações maiores subsequentes.
Consulte a documentação sobre a performance do Spark no EMR e as notas de release do EMR 5.25.0 para obter detalhes sobre como habilitar essas otimizações.
Além disso, atualizamos a configuração padrão do Spark das instâncias otimizadas para memória R4, aprimorando a utilização de CPU e memória. Essa atualização aumenta a performance do tempo de execução do Spark em uma vez e meia.*
O Amazon EMR versão 5.25.0 já está disponível em todas as regiões com suporte para Amazon EMR.
Para receber atualizações sobre as versões do EMR, assine o feed das notas de release do EMR. Use o ícone na parte superior do Guia de versões do EMR para vincular o URL do feed diretamente ao seu leitor de feeds favorito.
*Baseado no teste comparativo TPC-DS de 3 TB, comparando o EMR 5.24.0 com o EMR 5.25.0.