Publicado: Aug 1, 2019

Agora, você pode usar o Spark 2.4.3, o Presto 0.220, o Apache Hive 2.3.5 e o Apache Tez 0.9.2 no Amazon EMR versão 5.25.0.

Essa versão também inclui duas novas otimizações de performance que melhoram a performance do Spark em até três vezes* em relação ao EMR 5.24: Bloom Filter Join e Optimized Join Reorder.

  • O Bloom Filter Join filtra dinamicamente associações de tabela para incluir somente as linhas relevantes. Isso reduz a quantidade de dados processados pelo Spark, aprimorando a performance do tempo de execução das consultas.
  • O Optimized Join Reorder reordena dinamicamente as associações para executar primeiro as associações menores com filtros, reduzindo o processamento necessário para as associações maiores subsequentes.

Consulte a documentação sobre a performance do Spark no EMR e as notas de release do EMR 5.25.0 para obter detalhes sobre como habilitar essas otimizações. 

Além disso, atualizamos a configuração padrão do Spark das instâncias otimizadas para memória R4, aprimorando a utilização de CPU e memória. Essa atualização aumenta a performance do tempo de execução do Spark em uma vez e meia.*

O Amazon EMR versão 5.25.0 já está disponível em todas as regiões com suporte para Amazon EMR

Para receber atualizações sobre as versões do EMR, assine o feed das notas de release do EMR. Use o ícone na parte superior do Guia de versões do EMR para vincular o URL do feed diretamente ao seu leitor de feeds favorito. 

*Baseado no teste comparativo TPC-DS de 3 TB, comparando o EMR 5.24.0 com o EMR 5.25.0.