Quais etapas de planejamento posso realizar ao fazer upgrade do meu cluster do Amazon EMR?
Data da última atualização: 7/1/2023
Preciso planejar um upgrade do Amazon EMR para acompanhar as rápidas mudanças tecnológicas.
Breve descrição
Para acompanhar as rápidas mudanças de big data, você deve fazer upgrade da sua versão do Amazon EMR. A migração para uma nova versão do Amazon EMR melhora a excelência operacional e a eficácia da sua workload. No entanto, antes de fazer upgrade do Amazon EMR, você deve fazer um planejamento e se preparar. Há informações que você deve revisar e procedimentos que você deve seguir.
Benefícios dos upgrades de versão do Amazon EMR
Os benefícios do upgrade do Amazon EMR incluem:
- Aumento da produtividade e redução dos custos ao aproveitar os recursos mais recentes.
- As aplicações atualizadas são executadas mais rapidamente.
- As correções de erros atualizadas fornecem uma infraestrutura estável.
- Os patches de segurança mais recentes reforçam a segurança.
- Acesso atualizado aos recursos de software de código aberto.
Por exemplo, com o Amazon EMR versão 6.6 e posterior, o Log4j 1.x e o Log4j 2.x são atualizados para o Log4j 1.2.17 e o Log4j 2.17.1 (ou posterior), respectivamente. Nas versões posteriores, ações de bootstrap não são necessárias para atenuar vulnerabilidades e exposições comuns (CVEs).
Resolução
Recursos de otimização de performance do Amazon EMR para aplicações de código aberto
O Amazon EMR oferece recursos de otimização de performance para muitas aplicações de código aberto.
Spark:
- Adaptive query execution (Execução adaptável de consultas)
- Dynamic partition pruning (Remoção dinâmica de partições)
- Flattening scalar subqueries (Nivelamento de subconsultas escalares)
- DISTINCT before INTERSECT (DISTINCT antes de INTERSECT)
- Bloom filter join (Junção do filtro Bloom)
- Optimized join reorder (Reordenação otimizada de junções)
- Improved Spark performance with Amazon Simple Storage Service (Amazon S3) (Melhora na performance do Spark com o Amazon Simple Storage Service [Amazon S3])
- Spark release history (Histórico de versões do Spark): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do Spark e seus componentes instalados nas versões do Amazon EMR.
Delta Lake:
- Using a Delta Lake cluster with Spark (Como usar um cluster Delta Lake com o Spark)
- Using a Delta Lake cluster with Trino (Como usar um cluster do Delta Lake com o Trino)
- Delta release history (Histórico de versões do Delta): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do Delta Lake e seus componentes instalados nas versões do Amazon EMR.
Flink:
- O Flink é suportado como uma aplicação YARN
- Flink release history (Histórico de versões do Flink): antes de decidir atualizar o Amazon EMR, verifique a versão do Flink e seus componentes instalados nas versões do Amazon EMR.
Hadoop:
- Transparent encryption in Hadoop Distributed File System (HDFS) (Criptografia transparente no Sistema de Arquivos Distribuído do Hadoop [HDFS])
- Non-uniform memory access awareness for YARN containers (Reconhecimento não uniforme de acesso à memória para contêineres YARN)
- Hadoop version history (Histórico de versões do Hadoop): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do Hadoop e seus componentes instalados nas versões do Amazon EMR.
HBase:
- HBase on Amazon S3 (HBase no Amazon S3)
- Clusters de réplicas de leitura do HBase
- Snapshots do HBase
- HBase release history (Histórico de versões do HBase): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do HBase e seus componentes instalados nas versões do Amazon EMR.
HCatalog:
- Integrações com versões do Amazon EMR
- Using the AWS Glue Data Catalog as the metastore for Apache Hive (Como usar o Catálogo de Dados do AWS Glue como metastore para o Apache Hive)
- HCatalog release history (Histórico de versões do HCatalog): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do HCatalog e seus componentes instalados nas versões do Amazon EMR.
Hive:
- Transações ACID e Amazon S3
- Hive Live Long and Process (LLAP)
- Improve Hive performance (Melhorar a performance do Hive)
- Iniciar o Committer otimizado Hive EMR File System (EMRFS) S3
- Using S3 Select with Hive to improve performance (Como usar o S3 Select com o Hive para melhorar a performance)
- Otimização do comando de verificação do Metastore (MSCK)
- Hive release history (Histórico de versões do Hive): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do Hive e seus componentes instalados nas versões do Amazon EMR.
Hudi:
- Integrações com versões do Amazon EMR
- Hudi release history (Histórico de versões do Hudi): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do Hudi e seus componentes instalados nas versões do Amazon EMR.
Iceberg:
- Integrações com versões do Amazon EMR
- Iceberg release history (Histórico de versões do Iceberg): antes de decidir fazer upgrade do Amazon EMR, verifique a versão do Iceberg e seus componentes instalados nas versões do Amazon EMR.
Presto e Trino:
- Integrações com versões do Amazon EMR
- Using S3 Select Pushdown with Presto to improve performance (Como usar o S3 Select Pushdown com o Presto para melhorar a performance)
- Adding database connectors (Como adicionar conectores de banco de dados)
- Activating Presto strict mode (Ativação do modo restrito do Presto)
- Exchange Manager
- Using Presto automatic scaling with Graceful Decommission (Como usar a escalabilidade automática do Presto com desativação normal)
- Presto release history (Histórico de versões do Presto) e notas de versão do Trino: antes de decidir fazer upgrade do Amazon EMR, verifique a versão do Presto ou do Trino e seus componentes instalados nas versões do Amazon EMR.
Planejamento de upgrades de versão do Amazon EMR
Siga estas etapas para se preparar para um upgrade de versão do Amazon EMR:
- Pesquise os problemas que você está enfrentando na sua versão atual do Amazon EMR.
- Isole um pequeno subconjunto de aplicações ou consultas que você deseja usar para testar a performance do seu cluster EMR.
- Configure uma estratégia de teste A/B para decidir a melhor versão do Amazon EMR para sua solução. No teste A/B para o Amazon EMR, você testa duas versões diferentes do serviço para comparar a performance delas em seu ambiente.
- Migre gradualmente a workload para a nova versão do Amazon EMR. Se você descobrir grandes problemas na versão de produção do Amazon EMR, poderá o processo de migração aqui.
- Após a conclusão da migração, encerre o antigo cluster do Amazon EMR.
Correção de problemas relacionados a upgrades de versão do Amazon EMR
Siga estas etapas para corrigir os problemas encontrados ao fazer upgrade de sua versão do Amazon EMR:
- Reconfigure a aplicação. Observe se as mudanças melhoram ou não a performance de sua aplicação.
- Verifique se os problemas foram resolvidos por uma versão mais recente da aplicação.
- Altere a aplicação ou as consultas para ver se você pode evitar problemas.
- Verifique os defeitos abertos e as soluções alternativas para melhorar a aplicação. Entre em contato com o AWS Premium Support para descobrir se há uma solução alternativa.
- Interrompa a migração do Amazon EMR até que o problema seja corrigido ou exista uma solução alternativa.
Considerações sobre upgrades de versão do Amazon EMR
Quando você atualiza sua versão do Amazon EMR, a regressão de performance pode causar problemas. As atualizações podem alterar a API, o que pode afetar a capacidade do seu código de ser executado em uma interface mais nova. Podem ocorrer lentidão e falhas da aplicação após o upgrade de versão do Amazon EMR.
Ao pensar em atualizar sua versão do Amazon EMR, é uma boa prática ler a seção What's new? (Novidades) do guia de versões. A seção What's new? (Novidades) inclui informações sobre as versões e datas de lançamento do Amazon EMR, além de soluções para problemas comuns com aplicações de código aberto.
Pesquisa de mudanças em aplicações de código aberto e problemas pendentes
Verifique as notas de versão e os defeitos em aberto a seguir antes de decidir migrar para uma nova versão do Amazon EMR. A lista de aplicações a seguir se baseia na versão 6.9 do Amazon EMR.
Observação: esses hiperlinks levam você aos sites de aplicações de terceiros, ao GitHub ou ao site do Apache.
- Notas de versão do Flink em Upgrade Flink (Atualizações do Flink) e acompanhamento de problemas
- Notas de versão do Ganglia e acompanhamento de problemas
- Notas de versão do Hadoop e acompanhamento de problemas
- Notas de versão do HBase e acompanhamento de problemas
- Notas de versão do HCatalog e acompanhamento de problemas
- Notas de versão do Hive e acompanhamento de problemas
- Notas de versão do Hue e acompanhamento de problemas
- Notas de versão do JupyterEnterpriseGateway e acompanhamento de problemas
- Notas de versão do JupyterHub e acompanhamento de problemas
- Notas de versão do Livy e acompanhamento de problemas
- Notas de versão do MXNet e acompanhamento de problemas
- Notas de versão do Oozie e acompanhamento de problemas
- Notas de versão do Phoenix e acompanhamento de problemas
- Notas de versão do Pig e acompanhamento de problemas
- Notas de versão do Presto e acompanhamento de problemas
- Notas de versão do Spark e acompanhamento de problemas
- Notas de versão do Sqoop em Releases (Versões) e acompanhamento de problemas
- Notas de versão do TensorFlow e acompanhamento de problemas
- Notas de versão do Tez e acompanhamento de problemas
- Notas de versão do Trino e acompanhamento de problemas
- Notas de versão do Zeppelin e acompanhamento de problemas
- Notas de versão do ZooKeeper e acompanhamento de problemas
Este artigo ajudou?
Precisa de ajuda com faturamento ou suporte técnico?