Publicado: Sep 6, 2019

O EMR versão 6.0.0 (beta) permite que os usuários definam dependências de aplicativos e bibliotecas com imagens do docker por meio do Docker Hub e do Amazon Elastic Container Registry (ECR) usando o Spark 2.4.3 e o Hadoop 3.1.0.

Hoje em dia, os usuários do PySpark e do SparkR precisam instalar suas dependências em todos os hosts de um cluster. Como resultado, as equipes que operam clusters multilocatário enfrentam problemas para manter atualizadas versões de bibliotecas específicas e gerenciar dependências, o que limita a produtividade do desenvolvedor, aumentando o tempo gasto com o preparo de um cluster para utilização, bem como a complexidade dos upgrades de clusters. 

Ao usar o Hadoop 3, o docker e o EMR, os usuários do Spark não precisam mais instalar dependências de biblioteca em hosts individuais de cluster. Além disso, agora, as dependências de aplicativos podem fazer parte do escopo de aplicativos Spark individuais. Você pode obter essa facilidade ao executar aplicativos Spark em contêineres do docker, em vez de diretamente nos hosts do cluster do EMR. Para usar o docker com seu aplicativo Spark, basta usar como referência o nome da imagem do docker ao enviar trabalhos para um cluster do EMR. O YARN, em execução em um cluster do EMR, recuperará automaticamente a imagem por meio do Docker Hub ou do ECR, e executará o aplicativo. Você pode usar imagens do docker para empacotar suas próprias dependências de biblioteca, bem como executar contêineres com diferentes versões de R e Python no mesmo cluster. 

O EMR versão 6.0.0 (beta) também aceita o Amazon Linux 2 e o Amazon Corretto JDK 8. O Amazon Linux 2 é a geração mais recente do sistema operacional do servidor do Amazon Linux e disponibiliza novas ferramentas de sistema, como o sistema systemd init, e o Amazon Linux LTS Kernel com performance ajustada. O Amazon Corretto JDK 8 disponibiliza um JDK compatível com o Java SE certificado, que inclui suporte de longo prazo, melhorias de performance e correções de segurança. 

O EMR versão 6.0.0 (beta) está disponível nas regiões Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon). Para começar a usá-lo, consulte Run Spark applications with Docker using Amazon EMR 6.0.0 (Beta). Para enviar feedback ou tirar dúvidas sobre essa versão, use o fórum do Amazon EMR.

Para receber atualizações sobre as versões do EMR, assine o feed das notas de release do EMR. Use o ícone na parte superior do Guia de versões do EMR para vincular o URL do feed diretamente ao seu leitor de feeds favorito.